Volver a todos los cuestionariosCuestionario vinculado a una guíaduro Nivel6 Preguntas

Prueba de optimización de políticas relativas al grupo

Pon a prueba tu comprensión de cómo GRPO entrena modelos lingüísticos con aprendizaje por refuerzo.

Pregunta 1 de 6Correcto: 0

¿Qué componente principal de PPO elimina GRPO?