Retour à tous les quizQuiz lié à un guideMoyen Niveau6 Questions

Quiz itératif sur le DPO et le réglage des préférences en ligne

Vérifiez votre compréhension de la façon dont l’optimisation itérative et des préférences en ligne améliore les modèles linguistiques.

Question 1 de 6Exactement : 0

Qu’est-ce que le DPO évite par rapport aux exigences du RLHF (PPO) traditionnel ?