Tillbaka till alla frågesporterGuidelänkat frågesportMedium Nivå6 Frågor

Iterativ DPO och Online Preference Tuning Quiz

Kontrollera hur iterativ och onlinepreferensoptimering förbättrar språkmodeller.

Fråga 1 av 6Rätt: 0

Vad undviker DPO som traditionell RLHF (PPO) kräver?