← Zurück zu allen QuizzenMit dem Guide verknüpftes Quiz • Mittel Ebene • 6 Fragen

Iteratives DPO- und Online-Präferenzoptimierungsquiz

Überprüfen Sie Ihr Verständnis dafür, wie iterative und Online-Präferenzoptimierung Sprachmodelle verbessern.

Verwandte Führungspfade

Frage 1 von 6Richtig: 0

Was vermeidet der DPO, was beim herkömmlichen RLHF (PPO) erforderlich ist?