Вернуться ко всем викторинамВикторина, связанная с руководствомСредний Уровень6 Вопросы

Викторина по оптимизации проксимальной политики

Проверьте свое понимание того, как PPO стабилизирует обучение с подкреплением и его роль в RLHF.

Связанные направляющие пути

Вопрос 1 из 6Правильно: 0

Какую проблему в первую очередь решает «обрезка» PPO?