← Volver a todos los cuestionariosCuestionario vinculado a una guía • duro Nivel • 6 Preguntas
Prueba de optimización de políticas relativas al grupo
Pon a prueba tu comprensión de cómo GRPO entrena modelos lingüísticos con aprendizaje por refuerzo.
Pregunta 1 de 6Correcto: 0