返回所有测验引导式测验 级别6 问题

RLHF 测验中的分组奖励标准化

测试您对分组奖励标准化和 GRPO 算法的理解。

问题 1 6正确: 0

在分组奖励标准化中,每个响应的奖励与什么进行比较?