Înapoi la toate chestionareleTest legat de ghidMediu Nivel6 Întrebări

DPO iterativ și chestionar de ajustare a preferințelor online

Verificați înțelegerea modului în care optimizarea preferințelor online și iterativă îmbunătățește modelele de limbă.

Întrebare 1 de 6Corect: 0

Ce evită DPO de care RLHF tradițional (PPO) cere?