语言人工智能指南

数学推理过程监督

过程监督会奖励推理链中每一个正确步骤的模型,而不仅仅是最终答案。

概述

过程监督会奖励推理链中每一个正确步骤的模型,而不仅仅是最终答案。对于数学来说,一个错误的举动就会毁掉一切,对工作本身进行评分会产生更可靠的求解器。

数学推理过程监督是用于大规模阅读、生成、分类和转换文本和语音的语言人工智能堆栈的一部分。

深入探讨

大多数奖励模型仅对最终答案(结果监督)进行评分。这让模型“很幸运”——通过有缺陷的步骤达到正确的数字,但这些步骤会相互抵消。相反,流程监督在人类或人工智能标签上训练流程奖励模型(PRM),将每个中间步骤标记为正确、不正确或中立。 OpenAI 的 2023 年“让我们逐步验证”论文发布了 PRM800K,即数学问题的大约 800,000 个步骤级标签,并显示过程监督验证器解决了测试子集的 78%,而较弱的仅结果基线。 PRM 用于推理对许多采样解决方案进行排序,选择具有最高最小步骤分数的链。它还提供可解释的反馈:您可以准确地看到推理的错误之处。

技术洞察

在测试时,模型会采样许多候选解决方案; PRM 对每个步骤进行评分,解决方案的总体分数通常是每个步骤正确性概率的乘积(或最小值)。然后“Nest-of-N”选择得分最高的链。由于信用是在本地分配的,因此训练信号比单个序列结束奖励更密集且噪音更小,这减少了错误步骤同时产生正确答案的奖励黑客行为。

掌握数学推理的过程监督

过程监督会奖励推理链中每一个正确步骤的模型,而不仅仅是最终答案。对于数学来说,一个错误的举动就会毁掉一切,对工作本身进行评分会产生更可靠的求解器。数学推理过程监督是用于大规模阅读、生成、分类和转换文本和语音的语言人工智能堆栈的一部分。为了建立深入的理解,请将数学推理的过程监督视为一种操作模型,而不是单一功能:定义期望的结果,澄清假设,并将系统可以可靠地完成的任务与仍需要专家判断的任务分开。

在实践中,使用数学推理过程监督的强大团队将提示、检索和审查循环设计为一个集成的通信系统。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

语言工作流程可以在不牺牲一致性的情况下更快地移动。与此同时,幻觉事实可以悄悄地进入报告、支持流程或研究成果。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

语言工作流程可以在不牺牲一致性的情况下更快地移动。

语言工作流程可以在不牺牲一致性的情况下更快地移动。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

它扩展了跨语言和沟通方式的访问。

它扩展了跨语言和沟通方式的访问。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

团队可以花更多时间进行判断,而自动化则可以处理重复。

团队可以花更多时间进行判断,而自动化则可以处理重复。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

数学推理过程监督的未来

手动步骤标记成本高昂,因此研究正在转向自动化过程监督——使用蒙特卡罗推出(Math-Shepherd)来估计每个步骤的值,而无需人工标记,或者让更强的模型判断较弱的步骤。期望 PRM 能够推动强化学习微调,而不仅仅是重新排名,并从数学扩展到代码、科学证明和代理多步骤规划,其中步骤级别的正确性很重要。

现实世界的实施

OpenAI 的 PRM800K 数据集:800K 人类步骤级标签,用于在 MATH 基准上训练验证者

Math-Shepherd:通过蒙特卡罗推出自动标记步骤正确性,以避免昂贵的人工注释

Best-of-N 重新排名:生成 256 个解决方案并选择每一步 PRM 得分最高的一个

辅导工具可以标记学生解决方案中首次出现错误的确切行

实施模式

数学推理实践过程监督

OpenAI 的 PRM800K 数据集:800K 人类步骤级标签,用于在 MATH 基准上训练验证者。

OpenAI 的 PRM800K 数据集:800K 人工步骤级标签,用于在 MATH 基准上训练验证者。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

数学推理实践过程监督

Math-Shepherd:通过蒙特卡洛推出自动标记步骤正确性,以避免昂贵的人工注释。

Math-Shepherd:通过蒙特卡罗推出自动标记步骤正确性,以避免成本高昂的人工注释团队在预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时通常会获得更好的结果。

数学推理实践过程监督

Best-of-N 重新排序:生成 256 个解决方案,并选择每一步 PRM 得分最高的一个。

Best-of-N 重新排名:生成 256 个解决方案并选择每一步 PRM 得分最高的一个 团队在预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力增益和错误成本时,通常会获得更好的结果。

数学推理实践过程监督

辅导工具可以标记学生解决方案中首次出现错误的确切行。

辅导工具可以标记学生工作解决方案中首次出现错误的确切线路。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会获得更好的结果。

风险与防护栏

!

幻觉的事实可以悄悄地进入报告、支持流程或研究成果。

!

及时的敏感性可能会在类似的请求中产生不一致的结果。

!

如果访问控制薄弱,敏感文本数据可能会暴露。

实施路线图

1

在推出之前定义输出格式、语气和质量标准。

在推出之前定义输出格式、语气和质量标准。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

当准确性很重要时,请使用可信来源进行地面响应。

当准确性很重要时,请使用可信来源进行地面响应。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

为高风险输出保留人工审查检查点。

为高风险输出保留人工审查检查点。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

跟踪故障模式并定期重新训练提示或工作流程。

跟踪故障模式并定期重新训练提示或工作流程。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索