语言人工智能指南

奖励模型

奖励模型是一种经过训练的神经网络，可以预测人工智能的反应有多好，充当人类判断的自动替代品。

概述

奖励模型是一种经过训练的神经网络，可以预测人工智能的反应有多好，充当人类判断的自动替代品。正是评分引擎使大规模的人类反馈强化学习成为可能。

奖励建模是语言人工智能堆栈的一部分，用于大规模读取、生成、分类和转换文本和语音。

深入探讨

奖励建模解决了一个实际问题：人类无法对模型在训练过程中生成的数百万个输出中的每一个进行评分。相反，贴标签者会比较一小组答案，通常会选择同一提示的两个答案中哪一个更好。然后根据这些比较训练奖励模型，为任何提示-响应对输出单个标量分数。标准训练目标是 Bradley-Terry 模型，它将成对偏好转化为一个响应得分超过另一个响应的概率。经过训练，这种奖励模型可以廉价地评估无限的新输出，为 PPO 等算法提供用于改进语言模型的信号。奖励模型也会在推理时重用于 N 次最佳采样，其中会生成许多候选对象并返回得分最高的候选对象。

技术洞察

奖励模型通常是基础语言模型，其标记预测头被发出一个标量的单个线性层取代。训练最大化所选响应得分高于被拒绝响应得分的对数似然：loss = -log(sigmoid(r_chosen - r_rejected))。只有相对差异才重要，因此绝对比例是任意的。质量取决于标签的一致性和响应方式的广泛覆盖。

掌握奖励模型

奖励模型是一种经过训练的神经网络，可以预测人工智能的反应有多好，充当人类判断的自动替代品。正是评分引擎使大规模的人类反馈强化学习成为可能。奖励建模是语言人工智能堆栈的一部分，用于大规模读取、生成、分类和转换文本和语音。为了建立深入的理解，请将奖励建模视为一种操作模型，而不是单一功能：定义期望的结果，澄清假设，并将系统可以可靠地完成的任务与仍需要专家判断的任务分开。

在实践中，使用奖励建模的强大团队将提示、检索和审查循环设计为一个集成的通信系统。他们记录明确的成功标准，根据实际数据和工作流程进行测试，并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

语言工作流程可以在不牺牲一致性的情况下更快地移动。与此同时，幻觉事实可以悄悄地进入报告、支持流程或研究成果。最具弹性的方法是将实验速度与治理规则结合起来：运行试点、捕获证据、发布决策日志，并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

语言工作流程可以在不牺牲一致性的情况下更快地移动。

语言工作流程可以在不牺牲一致性的情况下更快地移动。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

它扩展了跨语言和沟通方式的访问。

它扩展了跨语言和沟通方式的访问。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

团队可以花更多时间进行判断，而自动化则可以处理重复。

团队可以花更多时间进行判断，而自动化则可以处理重复。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

奖励模型的未来

研究正在解决奖励模型的最大弱点：它们可能被“黑客攻击”（模型利用偏向长度等怪癖），并且随着政策的改进，它们会偏离分配。有希望的方向包括对每个推理步骤进行评分的过程奖励模型、抵御黑客攻击的集成和不确定性估计、人工智能生成的偏好标签（RLAIF）以及产生批评和理由而不是纯粹数字的生成奖励模型。

现实世界的实施

通过在 PPO 培训期间对候选人的回答进行评分，为 ChatGPT 和 Claude 等助理提供 RLHF 动力

Best-of-N 采样，模型生成许多答案，奖励模型为用户选择最佳答案

数学和编码“验证者”或过程奖励模型，对中间推理步骤进行评分以提高问题解决能力

对合成训练数据进行排名和过滤，仅保留高分代以进行进一步微调

实施模式

实践中的奖励建模

通过在 PPO 培训期间对候选人的反应进行评分，为 ChatGPT 和 Claude 等助理提供 RLHF 动力。

通过在 PPO 培训期间对候选人的反应进行评分，为 ChatGPT 和 Claude 等助理提供 RLHF 能力当团队预先定义质量阈值、针对边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时，通常会获得更好的结果。

实践中的奖励建模

Best-of-N 采样，模型生成许多答案，奖励模型为用户选择最佳答案。

Best-of-N 采样，模型生成许多答案，奖励模型为用户选择最好的答案。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力增益和错误成本时，通常会获得更好的结果。

实践中的奖励建模

数学和编码“验证者”或过程奖励模型，对中间推理步骤进行评分以提高问题解决能力。

数学和编码“验证者”或过程奖励模型对中间推理步骤进行评分，以改进问题解决能力。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时，通常会获得更好的结果。

实践中的奖励建模

对合成训练数据进行排名和过滤，仅保留高分代以进行进一步微调。

对合成训练数据进行排名和过滤，仅保留高分代以进行进一步微调当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力增益和错误成本时，通常会获得更好的结果。

风险与防护栏

幻觉的事实可以悄悄地进入报告、支持流程或研究成果。

及时的敏感性可能会在类似的请求中产生不一致的结果。

如果访问控制薄弱，敏感文本数据可能会暴露。

实施路线图

在推出之前定义输出格式、语气和质量标准。

在推出之前定义输出格式、语气和质量标准。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

当准确性很重要时，请使用可信来源进行地面响应。

当准确性很重要时，请使用可信来源进行地面响应。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

为高风险输出保留人工审查检查点。

为高风险输出保留人工审查检查点。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

跟踪故障模式并定期重新训练提示或工作流程。

跟踪故障模式并定期重新训练提示或工作流程。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

不断探索

ChatGPT 和法学硕士

了解现代语言模型如何生成和推理。

阅读指南

自然语言处理基础知识

了解这些工具背后的语言处理基础知识。

阅读指南