← Volver a todos los cuestionariosCuestionario vinculado a una guía • Medio Nivel • 6 Preguntas

DPO iterativo y cuestionario de ajuste de preferencias en línea

Compruebe su comprensión de cómo la optimización iterativa y de preferencias en línea mejora los modelos lingüísticos.

Rutas de guía relacionadas

Pregunta 1 de 6Correcto: 0

¿Qué evita DPO que requiere el RLHF tradicional (PPO)?