← Voltar para todos os questionáriosQuestionário vinculado ao guia • Difícil Nível • 6 Perguntas
Questionário de otimização de política relativa de grupo
Teste sua compreensão de como o GRPO treina modelos de linguagem com aprendizagem por reforço.
Pergunta 1 de 6Correto: 0