Zurück zu allen QuizzenMit dem Guide verknüpftes QuizMittel Ebene6 Fragen

Iteratives DPO- und Online-Präferenzoptimierungsquiz

Überprüfen Sie Ihr Verständnis dafür, wie iterative und Online-Präferenzoptimierung Sprachmodelle verbessern.

Frage 1 von 6Richtig: 0

Was vermeidet der DPO, was beim herkömmlichen RLHF (PPO) erforderlich ist?