Torna a tutti i quizQuiz collegato alla guidaMedio Livello6 Domande

DPO iterativo e quiz di ottimizzazione delle preferenze online

Verifica la tua comprensione di come l'ottimizzazione iterativa e delle preferenze online migliora i modelli linguistici.

Domanda 1 di 6Corretto: 0

Cosa evita il DPO rispetto a quanto richiesto dal tradizionale RLHF (PPO)?