← Tillbaka till alla frågesporterGuidelänkat frågesport • Medium Nivå • 6 Frågor

Iterativ DPO och Online Preference Tuning Quiz

Kontrollera hur iterativ och onlinepreferensoptimering förbättrar språkmodeller.

Relaterade ledstråk

Fråga 1 av 6Rätt: 0

Vad undviker DPO som traditionell RLHF (PPO) kräver?