← Tilbake til alle quizerGuide-lenket quiz • Middels Nivå • 6 Spørsmål

Iterativ DPO og Online Preference Tuning Quiz

Sjekk hvordan iterativ og online preferanseoptimalisering forbedrer språkmodeller.

Relaterte ledestier

Spørsmål 1 av 6Riktig: 0

Hva unngår DPO som tradisjonell RLHF (PPO) krever?