基础知识指南

RLHF 中的分组奖励标准化

分组奖励标准化标准化了模型在对同一提示的一批响应中的奖励，将噪声分数转化为稳定的训练信号。

概述

分组奖励标准化标准化了模型在对同一提示的一批响应中的奖励，将噪声分数转化为稳定的训练信号。这是 GRPO 背后的核心技巧，GRPO 是为许多现代推理模型提供支持的算法。

RLHF 中的分组奖励标准化位于核心 AI 工具包中。当你理解它时，其他人工智能主题就变得更容易评估和比较。

深入探讨

在基于人类反馈的强化学习 (RLHF) 中，模型会生成响应，奖励模型会对它们进行评分，但原始奖励是嘈杂的，并且在不同提示之间差异很大。分组奖励标准化通过对同一提示的多个响应进行采样来解决此问题，然后通过减去组平均值并除以组的标准差来标准化每个奖励。这个 z 分数成为优势。该方法是 DeepSeek 推出的组相对策略优化 (GRPO) 的核心，该优化为 DeepSeek-R1 的推理提供了强大的支持。至关重要的是，GRPO 消除了 PPO 使用的单独价值网络（批评家），因为群体平均值充当基线。这使得训练更简单、更便宜、更节省内存，同时保持梯度信号的良好缩放。

技术洞察

对于一组具有奖励 r_1...r_G 的输出，优势为 A_i = (r_i −mean(r)) / std(r)。比小组平均水平更好的反应会获得积极的优势并得到强化；低于平均水平的则被推低。因为比较在提示内是相对的，所以绝对奖励规模和每个提示的难度相互抵消，从而减少了方差。 GRPO 将 PPO 的修剪目标和 KL 惩罚保留在参考策略上，以防止模型偏离太远。

掌握 RLHF 中的分组奖励标准化

为了加深理解，请将 RLHF 中的分组奖励标准化视为一种操作模型，而不是单个功能。定义期望的结果，澄清假设，并将系统可以可靠地完成的任务与仍需要专家判断的任务分开。

在实践中，使用 RLHF 中的分组奖励标准化的强大团队首先构建强大的概念模型，然后将这些模型映射到实际的生产约束。他们记录明确的成功标准，根据实际数据和工作流程进行测试，并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

它可以帮助您将清晰的技术声明与营销语言分开。同时，不同的团队可能会以不同的方式使用同一术语，因此请尽早定义范围。最具弹性的方法是将实验速度与治理规则结合起来：运行试点、捕获证据、发布决策日志，并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

它可以帮助您将清晰的技术声明与营销语言分开。

它可以帮助您将清晰的技术声明与营销语言分开。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

在花费金钱或时间之前，您可以提出更好的实施问题。

在花费金钱或时间之前，您可以提出更好的实施问题。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

具有共同理解的团队可以做出更好的产品、政策和学习决策。

具有共同理解的团队可以做出更好的产品、政策和学习决策。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

RLHF 分组奖励标准化的未来

分组标准化正在推动推理模型的繁荣，其中模型可以从可验证的奖励（例如正确的数学答案）中学习，而无需博学的批评家。研究正在完善它：关于是否除以标准差、处理产生零优势的全正确或全错误组以及缩放组大小的争论。预计分组的、无批评的方法将扩展到代理工具使用和代码生成，其中自动验证器提供廉价、丰富的奖励信号。

现实世界的实施

通过对每个问题的 16 个解决方案进行抽样来训练数学推理模型，并对高于小组平均正确率的解决方案进行奖励。

通过标准化每个用户提示的多个候选回复的奖励模型分数来微调聊天机器人的帮助性。

改进编码助手，根据每个采样解决方案是否通过单元测试对其进行评分，然后在组内进行标准化。

通过删除 PPO 批评者网络并使用组平均值作为基线来减少 RLHF 管道中的 GPU 内存。

实施模式