Volver a todos los cuestionariosCuestionario vinculado a una guíaMedio Nivel6 Preguntas

Prueba de optimización de preferencias directas

Pruebe su comprensión de cómo funciona la optimización directa de preferencias y por qué simplifica la alineación.

Rutas de guía relacionadas

Pregunta 1 de 6Correcto: 0

¿Qué elimina el DPO en comparación con el RLHF tradicional?