← Zpět ke všem kvízůmKvíz spojený s průvodcem • Střední úroveň • 6 Otázky

Iterativní DPO a online kvíz ladění preferencí

Ověřte si, jak iterativní a online optimalizace preferencí zlepšuje jazykové modely.

Související vodicí cesty

Otázka 1 z 6správně: 0

Čemu se DPO vyhýbá, co vyžaduje tradiční RLHF (PPO)?