← Torna a tutti i quizQuiz collegato alla guida • Medio Livello • 6 Domande

DPO iterativo e quiz di ottimizzazione delle preferenze online

Verifica la tua comprensione di come l'ottimizzazione iterativa e delle preferenze online migliora i modelli linguistici.

Percorsi guida correlati

Domanda 1 di 6Corretto: 0

Cosa evita il DPO rispetto a quanto richiesto dal tradizionale RLHF (PPO)?