← Volver a todos los cuestionariosCuestionario vinculado a una guía • Medio Nivel • 6 Preguntas
Prueba de optimización de políticas próximas
Pruebe su comprensión de cómo PPO estabiliza el aprendizaje por refuerzo y su papel en RLHF.
Pregunta 1 de 6Correcto: 0