概述
近端策略优化 (PPO) 是与根据人类反馈微调语言模型最相关的强化学习算法。它以谨慎的小步骤改进政策,以避免困扰幼稚政策梯度方法的不稳定性。
近端策略优化是语言人工智能堆栈的一部分,用于大规模读取、生成、分类和转换文本和语音。
深入探討
PPO 由 OpenAI 于 2017 年推出,并成为 InstructGPT 和 ChatGPT 等系统的 RLHF 背后的主力。策略梯度强化学习的核心挑战是单个过大的更新可能会导致性能崩溃。 PPO 透過「修剪替代目標」來解決這個問題:它衡量與舊政策相比,某項行動的可能性增加(或減少)了多少,將該比率乘以優勢(該行動比預期好多少),並將該比率限制在一個較小的範圍內,例如 0.8 到 1.2。这限制了策略每次更新可以移动的距离,保持学习稳定,同时仍然允许稳步改进。在語言模型 RLHF 中,「動作」是產生令牌或回應,獎勵來自獎勵模型,KL 散度懲罰可以防止模型偏離其原始行為太遠。
技術洞察
PPO 最大化剪辑目标:min(ratio * Advantage, Clip(ratio, 1-eps, 1+eps) * Advantage),其中ratio 是新旧动作概率。通常使用广义优势估计和学习值(批评)网络来估计优势。在 RLHF 中,總獎勵將獎勵模型分數與每個針對參考策略的代幣 KL 懲罰相結合,平衡獎勵增益與保持接近原始模型。
掌握近端策略优化
近端策略优化 (PPO) 是与根据人类反馈微调语言模型最相关的强化学习算法。它以谨慎的小步骤改进政策,以避免困扰幼稚政策梯度方法的不稳定性。近端策略优化是语言人工智能堆栈的一部分,用于大规模读取、生成、分类和转换文本和语音。為了建立深入的理解,請將近端策略最佳化視為一種操作模型,而不是單一功能:定義期望的結果,澄清假設,並將系統可以可靠地執行的操作與仍需要專家判斷的操作分開。
在实践中,强大的团队使用近端策略优化将提示、检索和审查循环设计为一个集成的通信系统。他們記錄明確的成功標準,根據實際數據和工作流程進行測試,並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。
語言工作流程可以在不犧牲一致性的情況下更快地移動。同時,幻覺事實可以悄悄地進入報告、支持流程或研究成果。最具彈性的方法是將實驗速度與治理規則結合:運行試點、捕獲證據、發布決策日誌,並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。
戰略影響
語言工作流程可以在不犧牲一致性的情況下更快地移動。
語言工作流程可以在不犧牲一致性的情況下更快地移動。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。
它擴展了跨語言和溝通方式的訪問。
它擴展了跨語言和溝通方式的訪問。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。
團隊可以花更多時間進行判斷,而自動化則可以處理重複。
團隊可以花更多時間進行判斷,而自動化則可以處理重複。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。
現實世界的實施
通过 RLHF 微调 InstructGPT 和 ChatGPT 以遵循指令和人类偏好
训练游戏和机器人控制代理,PPO 在语言模型之前的原始领域
通过在 KL 约束下最大化奖励模型分数来减少毒性或提高帮助性
优化工具使用或多步骤代理行为,其中模型因正确完成任务而获得奖励
實施模式
实践中的近端策略优化
通过 RLHF 微调 InstructGPT 和 ChatGPT 以遵循指令和人类偏好。
透過 RLHF 微調 InstructGPT 和 ChatGPT 以遵循指令和人類偏好 當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。
实践中的近端策略优化
训练游戏和机器人控制代理,这是 PPO 在语言模型之前的原始领域。
訓練遊戲和機器人控制代理,PPO 在語言模型之前的原始領域當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移跟踪生產力增益和錯誤成本時,通常會得到更好的結果。
实践中的近端策略优化
通过在 KL 约束下最大化奖励模型分数来减少毒性或提高帮助性。
透過在 KL 限制下最大化獎勵模型分數來減少毒性或提高幫助性 當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。
实践中的近端策略优化
优化工具使用或多步骤代理行为,其中模型因正确完成任务而获得奖励。
優化工具使用或多步驟代理行為,其中模型因正確完成任務而獲得獎勵當團隊預先定義質量閾值、為邊緣情況保留人工升級路徑並隨著時間的推移跟踪生產力增益和錯誤成本時,通常會獲得更好的結果。
風險與防護欄
幻覺的事實可以悄悄地進入報告、支持流程或研究成果。
及時的敏感性可能會在類似的請求中產生不一致的結果。
如果存取控制薄弱,敏感文字資料可能會暴露。
實施路線圖
在推出之前定義輸出格式、語氣和品質標準。
在推出之前定義輸出格式、語氣和品質標準。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。
當準確性很重要時,請使用可信任來源進行地面回應。
當準確性很重要時,請使用可信任來源進行地面回應。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。
為高風險輸出保留人工審查檢查點。
為高風險輸出保留人工審查檢查點。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。
追蹤故障模式並定期重新訓練提示或工作流程。
追蹤故障模式並定期重新訓練提示或工作流程。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。