← Вернуться ко всем викторинамВикторина, связанная с руководством • Средний Уровень • 6 Вопросы

Итеративный DPO и онлайн-викторина по настройке предпочтений

Проверьте свое понимание того, как итеративная и онлайн-оптимизация предпочтений улучшает языковые модели.

Связанные направляющие пути

Вопрос 1 из 6Правильно: 0

Чего DPO избегает того, чего требует традиционный RLHF (PPO)?