基础知识指南

偏好优化中的长度标准化

长度标准化调整了偏好调整目标,因此模型不再仅仅通过编写更长的答案来赢得认可。

概述

长度标准化调整了偏好调整目标,因此模型不再仅仅通过编写更长的答案来赢得认可。这很重要,因为未经纠正的奖励信号会促使聊天机器人做出冗长、填充的响应,而不是真正更好的响应。

偏好优化中的长度标准化位于核心人工智能工具包中。当你理解它时,其他人工智能主题就变得更容易评估和比较。

深入探讨

当模型与 RLHF 或 DPO 等方法保持一致时,它们会从人类(或奖励模型)选择两个答案中“更好”的比较中学习。一个持续存在的错误是,较长的答案往往会受到青睐,即使它们实际上并不更好,因此模型学习了捷径:冗长。长度标准化可以抵消这一点。在 DPO 中,隐含奖励是每个令牌对数概率差异的总和,它会随着长度机械地增长。长度归一化 DPO 和 SimPO 等变体将奖励除以代币数量,而是按每个代币的平均值进行评分。结果是模型保持简洁和切题,而不是夸大对游戏目标的反应。

技术洞察

DPO 的隐式奖励是调整策略和参考策略之间的对数比,对响应中的每个令牌求和。因为每个令牌都会添加另一个(通常是正数)项,所以原始奖励会随着序列长度而缩放,从而使优化偏向于更长的完成时间。 SimPO 放弃了参考模型,并使用每个代币的平均对数概率作为奖励,加上目标奖励幅度。除以长度消除了机械长度优势,因此偏好梯度反映的是质量而不是字数。

掌握偏好优化中的长度标准化

长度标准化调整了偏好调整目标,因此模型不再仅仅通过编写更长的答案来赢得认可。这很重要,因为未经纠正的奖励信号会促使聊天机器人做出冗长、填充的响应,而不是真正更好的响应。偏好优化中的长度标准化位于核心人工智能工具包中。当你理解它时,其他人工智能主题就变得更容易评估和比较。为了建立深入的理解,请将偏好优化中的长度标准化视为一种操作模型,而不是单个功能:定义期望的结果,澄清假设,并将系统可以可靠地执行的操作与仍需要专家判断的操作分开。

在实践中,在偏好优化中使用长度归一化的强大团队首先构建强大的概念模型,然后将这些模型映射到实际的生产约束。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

它可以帮助您将清晰的技术声明与营销语言分开。同时,不同的团队可能会以不同的方式使用同一术语,因此请尽早定义范围。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

它可以帮助您将清晰的技术声明与营销语言分开。

它可以帮助您将清晰的技术声明与营销语言分开。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

在花费金钱或时间之前,您可以提出更好的实施问题。

在花费金钱或时间之前,您可以提出更好的实施问题。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

具有共同理解的团队可以做出更好的产品、政策和学习决策。

具有共同理解的团队可以做出更好的产品、政策和学习决策。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

偏好优化中长度标准化的未来

预计长度控制将成为标准旋钮,而不是事后的想法。研究人员正在将长度标准化与明确的长度惩罚、长度条件奖励和保持答案长度恒定的评估套件相结合,以衡量真实的质量增益。随着奖励模型在发现冗长偏差方面变得更好,对齐管道可能会默认报告长度偏差的获胜率,并且用户将更好地控制模型答案的简洁或详细程度。

现实世界的实施

使用 SimPO 调整客户支持助理,使其给出清晰、准确的答复,而不是看起来很详尽的填充段落。

报告 AlpacaEval 2 上的“长度控制胜率”,以表明模型得到了真正的改进,而不仅仅是变得更喋喋不休。

在微调编码模型时向 DPO 添加长度标准化,以便它返回最少的正确片段,而不是臃肿的样板。

诊断一个奖励模型,该模型可以系统地为较长的论文评分更高,然后在使用它来调整写作助理之前对其进行消除偏差。

实施模式

实践中偏好优化的长度归一化

使用 SimPO 调整客户支持助理,使其给出清晰、准确的答复,而不是看起来很详尽的填充段落。

使用 SimPO 调整客户支持助理,使其提供清晰、准确的答复,而不是看起来很彻底的填充段落。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。

实践中偏好优化的长度归一化

报告 AlpacaEval 2 上的“长度控制胜率”,以表明模型得到了真正的改进,而不仅仅是变得更喋喋不休。

在 AlpacaEval 2 上报告“长度控制的胜率”,以显示模型得到了真正的改进,而不仅仅是变得更喋喋不休。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

实践中偏好优化的长度归一化

在微调编码模型时向 DPO 添加长度标准化,以便它返回最少的正确片段,而不是臃肿的样板。

在微调编码模型时向 DPO 添加长度规范化,使其返回最少的正确片段,而不是臃肿的样板。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪随着时间的推移提高的生产力和错误成本时,通常会获得更好的结果。

实践中偏好优化的长度归一化

诊断一个奖励模型,该模型可以系统地为较长的论文评分更高,然后在使用它来调整写作助理之前对其进行消除偏差。

诊断一个奖励模型,系统地为较长的论文评分更高,然后在使用它来调整写作助理之前对其进行消除偏差。当团队预先定义质量阈值,为边缘情况保留人工升级路径,并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。

风险与防护栏

!

不同的团队可能会以不同的方式使用同一术语,因此请尽早定义范围。

!

基准测试可能看起来很强大,但实际性能却参差不齐。

!

忽视数据质量和评估计划通常会产生脆弱的结果。

实施路线图

1

从您需要的结果的简单语言定义开始。

从您需要的结果的简单语言定义开始。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

在测试之前选择一种成功指标和一种失败条件。

在测试之前选择一种成功指标和一种失败条件。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

使用代表性数据运行小型试点,而不是完善的演示集。

使用代表性数据运行小型试点,而不是完善的演示集。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

记录偏好优化中长度归一化的哪些方面有帮助以及哪些更简单的方法更好。

记录偏好优化中长度归一化的哪些方面有帮助以及哪些更简单的方法更好。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索