概述
群體相對策略最佳化 (GRPO) 是一種用於微調語言模型的強化學習方法,該方法根據同一提示的一組兄弟答案來判斷每個答案,從而消除了 PPO 使用的單獨價值網絡。它以 DeepSeek 推理模型背後的核心訓練技巧而聞名。
群組相關策略最佳化是一個技術構建塊,會大規模影響模型品質、基礎設施成本、延遲和可靠性。
深入探討
GRPO 是策略梯度強化學習的變體,旨在使大型語言模型的 RL 微調更便宜、更穩定。標準 PPO 需要一個有學識的「批評者」(價值模型),其大小大致與政策本身一樣大,以估計每個代幣的好壞。 GRPO 完全消除了這個批評。對於每個提示,它都會對一組完成進行採樣(例如 8-64),用獎勵信號對它們進行評分,然後通過根據組的平均值和標準差標準化其獎勵來計算每個完成的優勢。高於平均的答案會被強化,低於平均的答案會被抑制。 KL 散度項使模型接近參考策略。它由 DeepSeek 推出,為 DeepSeekMath 和 DeepSeek-R1 推理模型提供支援。
技術洞察
關鍵思想是用蒙特卡羅組基線取代 PPO 的學習值基線。對於一組具有獎勵 r_i 的輸出,每個優勢為 A_i = (r_i -mean(r)) / std(r)。歸一化分數乘以截斷機率比,與 PPO 完全相同,並且針對凍結參考模型的 KL 懲罰可以抑制漂移。因為沒有接受過訓練的批評家,所以內存和計算量大約減半,並且按提示標準化提供了自然縮放的低方差優勢。
掌握組相關策略優化
群體相對策略最佳化 (GRPO) 是一種用於微調語言模型的強化學習方法,該方法根據同一提示的一組兄弟答案來判斷每個答案,從而消除了 PPO 使用的單獨價值網絡。它以 DeepSeek 推理模型背後的核心訓練技巧而聞名。群組相關策略最佳化是一個技術構建塊,會大規模影響模型品質、基礎設施成本、延遲和可靠性。為了建立深入的理解,請將群組相對策略最佳化視為一種操作模型,而不是單一功能:定義期望的結果,澄清假設,並將系統可以可靠地執行的操作與仍需要專家判斷的操作分開。
在實踐中,強大的團隊使用群組相對策略優化來根據可靠性和成本優化架構、資料和基礎設施選擇。他們記錄明確的成功標準,根據實際數據和工作流程進行測試,並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。
多年來,架構決策決定著效能和營運成本。同時,優化一個基準測試可以隱藏更廣泛的系統弱點。最具彈性的方法是將實驗速度與治理規則結合:運行試點、捕獲證據、發布決策日誌,並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。
戰略影響
多年來,架構決策決定著效能和營運成本。
多年來,架構決策決定著效能和營運成本。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。
技術教育幫助團隊選擇正確的堆疊,而不僅僅是最新的堆疊。
技術教育幫助團隊選擇正確的堆疊,而不僅僅是最新的堆疊。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。
更好的工程選擇可以減少生產中的可靠性事故。
更好的工程選擇可以減少生產中的可靠性事故。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。
現實世界的實施
訓練 DeepSeek-R1 和 DeepSeekMath 使用基於規則的正確性獎勵對數學問題進行長鏈思維推理
微調代碼生成模型,其中每個採樣解決方案根據是否通過單元測試進行評分,並且該組被標準化以挑選獲勝者
開源 RLHF 管道(例如,在 TRL 和 verl 庫中)使用 GRPO 來調整聊天模型,而無需支付單獨的價值網絡費用
透過對每個提示的多個回應進行取樣並獎勵相對於同儕而言獎勵模型評分最高的回應,改善指令遵循或安全行為
實施模式
集團相關政策優化實踐
訓練 DeepSeek-R1 和 DeepSeekMath,使用數學問題上基於規則的正確性獎勵來產生長鏈思維推理。
訓練 DeepSeek-R1 和 DeepSeekMath,使用數學問題上基於規則的正確性獎勵來產生長鏈思維推理。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。
集團相關政策優化實踐
微調程式碼產生模型,其中每個採樣的解決方案都根據其是否通過單元測試進行評分,並且該組被標準化以選出獲勝者。
微調程式碼產生模型,其中每個採樣的解決方案根據是否通過單元測試進行評分,並且該組被標準化以挑選獲勝者。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。
集團相關政策優化實踐
開源 RLHF 管道(例如,在 TRL 和 verl 庫中)使用 GRPO 來調整聊天模型,而無需支付單獨的價值網路費用。
開源 RLHF 管道(例如,在 TRL 和 verl 庫中)使用 GRPO 來調整聊天模型,而無需支付單獨的價值網路費用。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。
集團相關政策優化實踐
透過對每個提示的多個回應進行取樣並獎勵相對於同儕而言獎勵模型評分最高的回應,來改善指令遵循或安全行為。
透過對每個提示的多個響應進行採樣並獎勵相對於同行而言獎勵模型評分最高的響應來改善指令遵循或安全行為當團隊預先定義質量閾值、為邊緣情況保留人工升級路徑並隨著時間的推移跟踪生產力增益和錯誤成本時,通常會獲得更好的結果。
風險與防護欄
優化一項基準測試可以隱藏更廣泛的系統弱點。
基礎設施和維護成本常常被低估。
隨著系統變得更加複雜,安全性和可觀察性差距可能會擴大。
實施路線圖
在實施之前定義延遲、品質和成本目標。
在實施之前定義延遲、品質和成本目標。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。
在實際負載和資料條件下進行基準測試。
在實際負載和資料條件下進行基準測試。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。
儀器監控錯誤、漂移和使用者影響。
儀器監控錯誤、漂移和使用者影響。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。
在擴展之前準備回滾和事件回應路徑。
在擴展之前準備回滾和事件回應路徑。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。