Вернуться ко всем викторинамВикторина, связанная с руководствомСредний Уровень6 Вопросы

Викторина по оптимизации прямых предпочтений

Проверьте свое понимание того, как работает оптимизация прямых предпочтений и почему она упрощает согласование.

Связанные направляющие пути

Вопрос 1 из 6Правильно: 0

Что устраняет DPO по сравнению с традиционным RLHF?