← Вернуться ко всем викторинамВикторина, связанная с руководством • Жесткий Уровень • 6 Вопросы
Викторина по оптимизации групповой относительной политики
Проверьте свое понимание того, как GRPO обучает языковые модели с помощью обучения с подкреплением.
Вопрос 1 из 6Правильно: 0