Terug naar alle quizzenGids-gekoppelde quizMiddelmatig Niveau6 Vragen

Iteratieve DPO en online quiz voor het afstemmen van voorkeuren

Controleer hoe iteratieve en online voorkeursoptimalisatie taalmodellen verbetert.

Vraag 1 van 6Juist: 0

Wat vermijdt DPO dat traditionele RLHF (PPO) vereist?