Tillbaka till alla frågesporterGuidelänkat frågesportMedium Nivå6 Frågor

Quiz för optimering av direkta preferenser

Testa din förståelse för hur Direct Preference Optimization fungerar och varför det förenklar anpassningen.

Relaterade ledstråk

Fråga 1 av 6Rätt: 0

Vad eliminerar DPO jämfört med traditionell RLHF?