← Volver a todos los cuestionariosCuestionario vinculado a una guía • duro Nivel • 6 Preguntas
Normalización de recompensas agrupadas en el cuestionario RLHF
Pruebe su comprensión de la normalización de recompensas agrupadas y el algoritmo GRPO.
Pregunta 1 de 6Correcto: 0