← Вернуться ко всем викторинамВикторина, связанная с руководством • Средний Уровень • 6 Вопросы
Викторина по оптимизации проксимальной политики
Проверьте свое понимание того, как PPO стабилизирует обучение с подкреплением и его роль в RLHF.
Вопрос 1 из 6Правильно: 0