Вернуться ко всем викторинамВикторина, связанная с руководствомЖесткий Уровень6 Вопросы

Викторина по оптимизации групповой относительной политики

Проверьте свое понимание того, как GRPO обучает языковые модели с помощью обучения с подкреплением.

Вопрос 1 из 6Правильно: 0

Какой основной компонент PPO исключает GRPO?