← Volver a todos los cuestionariosCuestionario vinculado a una guía • duro Nivel • 6 Preguntas

Normalización de recompensas agrupadas en el cuestionario RLHF

Pruebe su comprensión de la normalización de recompensas agrupadas y el algoritmo GRPO.

Rutas de guía relacionadas

Pregunta 1 de 6Correcto: 0

En la normalización de recompensas agrupadas, ¿con qué se compara la recompensa de cada respuesta?