Tilbake til alle quizerGuide-lenket quizMiddels Nivå6 Spørsmål

Iterativ DPO og Online Preference Tuning Quiz

Sjekk hvordan iterativ og online preferanseoptimalisering forbedrer språkmodeller.

Spørsmål 1 av 6Riktig: 0

Hva unngår DPO som tradisjonell RLHF (PPO) krever?