概述
近端策略优化 (PPO) 是与根据人类反馈微调语言模型最相关的强化学习算法。它以谨慎的小步骤改进政策,以避免困扰幼稚政策梯度方法的不稳定性。
近端策略优化是语言人工智能堆栈的一部分,用于大规模读取、生成、分类和转换文本和语音。
深入探讨
PPO 由 OpenAI 于 2017 年推出,并成为 InstructGPT 和 ChatGPT 等系统的 RLHF 背后的主力。策略梯度强化学习的核心挑战是单个过大的更新可能会导致性能崩溃。 PPO 通过“修剪替代目标”来解决这个问题:它衡量与旧政策相比,某项行动的可能性增加(或减少)了多少,将该比率乘以优势(该行动比预期好多少),并将该比率限制在一个较小的范围内,例如 0.8 到 1.2。这限制了策略每次更新可以移动的距离,保持学习稳定,同时仍然允许稳步改进。在语言模型 RLHF 中,“动作”是生成令牌或响应,奖励来自奖励模型,KL 散度惩罚可以防止模型偏离其原始行为太远。
技术洞察
PPO 最大化剪辑目标:min(ratio * Advantage, Clip(ratio, 1-eps, 1+eps) * Advantage),其中ratio 是新旧动作概率。通常使用广义优势估计和学习值(批评)网络来估计优势。在 RLHF 中,总奖励将奖励模型得分与针对参考策略的每个代币 KL 惩罚相结合,平衡奖励增益与保持接近原始模型。
掌握近端策略优化
近端策略优化 (PPO) 是与根据人类反馈微调语言模型最相关的强化学习算法。它以谨慎的小步骤改进政策,以避免困扰幼稚政策梯度方法的不稳定性。近端策略优化是语言人工智能堆栈的一部分,用于大规模读取、生成、分类和转换文本和语音。为了建立深入的理解,请将近端策略优化视为一种操作模型,而不是单个功能:定义期望的结果,澄清假设,并将系统可以可靠地执行的操作与仍需要专家判断的操作分开。
在实践中,强大的团队使用近端策略优化将提示、检索和审查循环设计为一个集成的通信系统。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。
语言工作流程可以在不牺牲一致性的情况下更快地移动。与此同时,幻觉事实可以悄悄地进入报告、支持流程或研究成果。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。
战略影响
语言工作流程可以在不牺牲一致性的情况下更快地移动。
语言工作流程可以在不牺牲一致性的情况下更快地移动。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。
它扩展了跨语言和沟通方式的访问。
它扩展了跨语言和沟通方式的访问。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。
团队可以花更多时间进行判断,而自动化则可以处理重复。
团队可以花更多时间进行判断,而自动化则可以处理重复。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。
现实世界的实施
通过 RLHF 微调 InstructGPT 和 ChatGPT 以遵循指令和人类偏好
训练游戏和机器人控制代理,PPO 在语言模型之前的原始领域
通过在 KL 约束下最大化奖励模型分数来减少毒性或提高帮助性
优化工具使用或多步骤代理行为,其中模型因正确完成任务而获得奖励
实施模式
实践中的近端策略优化
通过 RLHF 微调 InstructGPT 和 ChatGPT 以遵循指令和人类偏好。
通过 RLHF 微调 InstructGPT 和 ChatGPT 以遵循指令和人类偏好 当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。
实践中的近端策略优化
训练游戏和机器人控制代理,这是 PPO 在语言模型之前的原始领域。
训练游戏和机器人控制代理,PPO 在语言模型之前的原始领域当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。
实践中的近端策略优化
通过在 KL 约束下最大化奖励模型分数来减少毒性或提高帮助性。
通过在 KL 约束下最大化奖励模型分数来减少毒性或提高帮助性 当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。
实践中的近端策略优化
优化工具使用或多步骤代理行为,其中模型因正确完成任务而获得奖励。
优化工具使用或多步骤代理行为,其中模型因正确完成任务而获得奖励当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。
风险与防护栏
幻觉的事实可以悄悄地进入报告、支持流程或研究成果。
及时的敏感性可能会在类似的请求中产生不一致的结果。
如果访问控制薄弱,敏感文本数据可能会暴露。
实施路线图
在推出之前定义输出格式、语气和质量标准。
在推出之前定义输出格式、语气和质量标准。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。
当准确性很重要时,请使用可信来源进行地面响应。
当准确性很重要时,请使用可信来源进行地面响应。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。
为高风险输出保留人工审查检查点。
为高风险输出保留人工审查检查点。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。
跟踪故障模式并定期重新训练提示或工作流程。
跟踪故障模式并定期重新训练提示或工作流程。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。