← Voltar para todos os questionáriosQuestionário vinculado ao guia • Difícil Nível • 6 Perguntas
Normalização de recompensa agrupada no questionário RLHF
Teste sua compreensão da normalização de recompensas agrupadas e do algoritmo GRPO.
Pergunta 1 de 6Correto: 0