Voltar para todos os questionáriosQuestionário vinculado ao guiaDifícil Nível6 Perguntas

Normalização de recompensa agrupada no questionário RLHF

Teste sua compreensão da normalização de recompensas agrupadas e do algoritmo GRPO.

Pergunta 1 de 6Correto: 0

Na normalização de recompensa agrupada, com o que a recompensa de cada resposta é comparada?