Zpět ke všem kvízůmKvíz spojený s průvodcemStřední úroveň6 Otázky

Iterativní DPO a online kvíz ladění preferencí

Ověřte si, jak iterativní a online optimalizace preferencí zlepšuje jazykové modely.

Otázka 1 z 6správně: 0

Čemu se DPO vyhýbá, co vyžaduje tradiční RLHF (PPO)?