Volver a todos los cuestionariosCuestionario vinculado a una guíaMedio Nivel6 Preguntas

Prueba de optimización de políticas próximas

Pruebe su comprensión de cómo PPO estabiliza el aprendizaje por refuerzo y su papel en RLHF.

Rutas de guía relacionadas

Pregunta 1 de 6Correcto: 0

¿Qué problema aborda principalmente el 'recorte' de PPO?