语言人工智能指南

比值比偏好优化

比值比偏好优化 (ORPO) 是一种微调方法,可在单次训练中教会语言模型良好的行为和人类偏好。

概述

比值比偏好优化 (ORPO) 是一种微调方法,可在单次训练中教会语言模型良好的行为和人类偏好。这很重要,因为它跳过了通常的单独奖励模型和参考模型,使对齐更便宜、更简单。

优势比偏好优化是用于大规模阅读、生成、分类和转换文本和语音的语言人工智能堆栈的一部分。

深入探讨

ORPO 由 Hong、Lee 和 Thorne 于 2024 年提出,将监督微调和偏好调整合二为一。大多数对齐管道首先对好的示例进行 SFT,然后运行第二种方法,例如 RLHF 或 DPO,该方法需要模型的冻结副本(参考)以及存储的偏好对。 ORPO 完全删除了参考模型。它的损失为标准的下一个令牌目标增加了一个惩罚项:它提高了模型分配给所选(首选)响应的几率,同时降低了拒绝响应的几率。因为它使用优势比而不是强大的对数概率差距,所以惩罚很温和,因此模型学会了支持好的答案,而不会灾难性地忘记流畅的生成。

技术洞察

ORPO 的损失是 SFT 交叉熵损失加上所选响应和拒绝响应之间对数优势比的加权对数 sigmoid。赔率等于 p/(1-p),因此该比率会比较模型找到好答案与坏答案的可能性有多大。使用赔率而不是原始概率可以保持对比温和,从而防止过度抑制被拒绝的标记,从而降低未引用模型的性能。

掌握优势比偏好优化

比值比偏好优化 (ORPO) 是一种微调方法,可在单次训练中教会语言模型良好的行为和人类偏好。这很重要,因为它跳过了通常的单独奖励模型和参考模型,使对齐更便宜、更简单。优势比偏好优化是用于大规模阅读、生成、分类和转换文本和语音的语言人工智能堆栈的一部分。为了建立深入的理解,请将优势比偏好优化视为一种操作模型,而不是单一功能:定义期望的结果,澄清假设,并将系统可以可靠地执行的操作与仍然需要专家判断的操作分开。

在实践中,强大的团队使用优势比偏好优化将提示、检索和审查循环设计为一个集成的通信系统。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

语言工作流程可以在不牺牲一致性的情况下更快地移动。与此同时,幻觉事实可以悄悄地进入报告、支持流程或研究成果。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

语言工作流程可以在不牺牲一致性的情况下更快地移动。

语言工作流程可以在不牺牲一致性的情况下更快地移动。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

它扩展了跨语言和沟通方式的访问。

它扩展了跨语言和沟通方式的访问。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

团队可以花更多时间进行判断,而自动化则可以处理重复。

团队可以花更多时间进行判断,而自动化则可以处理重复。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

比值比偏好优化的未来

ORPO 越来越受欢迎,因为它通过放弃参考模型来减少内存和计算量,这对于在有限硬件上进行微调的团队很有吸引力。预计它会更频繁地出现在开源食谱中,并作为 Hugging Face TRL 等库的默认选项。未来的工作可能会自动调整 lambda 权重,将 ORPO 与其他无参考目标混合,并将其扩展到多模式和非常大的模型,在这些模型中,在内存中保存两个副本的成本很高。

现实世界的实施

在偏好对上微调开源 7B 聊天模型,无需加载第二个参考副本,从而将 GPU 内存减半

一家初创公司将客户支持助理调整为在一次培训中更喜欢礼貌、符合政策的答案,而不是 SFT-then-DPO

研究人员在同一数据集上将 ORPO 与 DPO 进行比较,以显示较低计算量的可比较一致性

将基本模型调整到专门领域(例如法律起草),其中可以使用好的和坏的示例对,但没有奖励模型预算

实施模式

优势比偏好优化实践

在偏好对上微调开源 7B 聊天模型,无需加载第二个参考副本,从而将 GPU 内存减半。

在偏好对上微调开源 7B 聊天模型,无需加载第二个参考副本,将 GPU 内存减半。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

优势比偏好优化实践

一家初创公司将客户支持助理调整为在一次培训中更喜欢礼貌、符合政策的答案,而不是先是 SFT,然后是 DPO。

一家初创公司在一次培训中让客户支持助理优先选择礼貌、符合政策的答案,而不是 SFT 然后是 DPO 团队,如果他们预先定义质量阈值,为边缘情况保留人工升级路径,并随着时间的推移跟踪生产力增益和错误成本,通常会获得更好的结果。

优势比偏好优化实践

研究人员在同一数据集上将 ORPO 与 DPO 进行比较,以显示较低计算量下的可比较一致性。

研究人员在同一数据集上将 ORPO 与 DPO 进行比较,以显示与较低计算能力的可比较一致性。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力增益和错误成本时,通常会获得更好的结果。

优势比偏好优化实践

将基本模型调整到专门领域(例如法律起草),其中可以使用好的和坏的示例对,但不能使用奖励模型预算。

将基本模型适应专门领域(例如法律起草),其中可以使用好的和坏的示例对,但没有奖励模型预算。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。

风险与防护栏

!

幻觉的事实可以悄悄地进入报告、支持流程或研究成果。

!

及时的敏感性可能会在类似的请求中产生不一致的结果。

!

如果访问控制薄弱,敏感文本数据可能会暴露。

实施路线图

1

在推出之前定义输出格式、语气和质量标准。

在推出之前定义输出格式、语气和质量标准。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

当准确性很重要时,请使用可信来源进行地面响应。

当准确性很重要时,请使用可信来源进行地面响应。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

为高风险输出保留人工审查检查点。

为高风险输出保留人工审查检查点。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

跟踪故障模式并定期重新训练提示或工作流程。

跟踪故障模式并定期重新训练提示或工作流程。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索