← Înapoi la toate chestionareleTest legat de ghid • Mediu Nivel • 6 Întrebări

DPO iterativ și chestionar de ajustare a preferințelor online

Verificați înțelegerea modului în care optimizarea preferințelor online și iterativă îmbunătățește modelele de limbă.

Căi de ghidare aferente

Întrebare 1 de 6Corect: 0

Ce evită DPO de care RLHF tradițional (PPO) cere?