Вернуться ко всем викторинамВикторина, связанная с руководствомСредний Уровень6 Вопросы

Итеративный DPO и онлайн-викторина по настройке предпочтений

Проверьте свое понимание того, как итеративная и онлайн-оптимизация предпочтений улучшает языковые модели.

Вопрос 1 из 6Правильно: 0

Чего DPO избегает того, чего требует традиционный RLHF (PPO)?