Volver a todos los cuestionariosCuestionario vinculado a una guíaMedio Nivel6 Preguntas

DPO iterativo y cuestionario de ajuste de preferencias en línea

Compruebe su comprensión de cómo la optimización iterativa y de preferencias en línea mejora los modelos lingüísticos.

Pregunta 1 de 6Correcto: 0

¿Qué evita DPO que requiere el RLHF tradicional (PPO)?