Volver a todos los cuestionariosCuestionario vinculado a una guíaduro Nivel6 Preguntas

Normalización de recompensas agrupadas en el cuestionario RLHF

Pruebe su comprensión de la normalización de recompensas agrupadas y el algoritmo GRPO.

Pregunta 1 de 6Correcto: 0

En la normalización de recompensas agrupadas, ¿con qué se compara la recompensa de cada respuesta?