← Terug naar alle quizzenGids-gekoppelde quiz • Middelmatig Niveau • 6 Vragen

Iteratieve DPO en online quiz voor het afstemmen van voorkeuren

Controleer hoe iteratieve en online voorkeursoptimalisatie taalmodellen verbetert.

Gerelateerde gidspaden

Vraag 1 van 6Juist: 0

Wat vermijdt DPO dat traditionele RLHF (PPO) vereist?