Zpět ke všem kvízůmKvíz spojený s průvodcemStřední úroveň6 Otázky

Přímý kvíz optimalizace preferencí

Otestujte si, jak rozumíte tomu, jak funguje přímá optimalizace preferencí a proč zjednodušuje zarovnání.

Související vodicí cesty

Otázka 1 z 6správně: 0

Co eliminuje DPO ve srovnání s tradičním RLHF?