概述
長度標準化調整了偏好調整目標,因此模型不再僅僅透過編寫更長的答案來贏得認可。這很重要,因為未經糾正的獎勵訊號會促使聊天機器人做出冗長、填充的回應,而不是真正更好的回應。
偏好優化中的長度標準化位於核心人工智慧工具包。當你理解它時,其他人工智慧主題就變得更容易評估和比較。
深入探討
當模型與 RLHF 或 DPO 等方法保持一致時,它們會從人類(或獎勵模型)選擇兩個答案中「更好」的比較中學習。一個持續存在的錯誤是,較長的答案往往會受到青睞,即使它們實際上並不更好,因此模型學習了捷徑:冗長。長度標準化可以抵消這一點。在 DPO 中,隱含獎勵是每個令牌對數機率差異的總和,它會隨著長度機械地增長。長度歸一化 DPO 和 SimPO 等變體將獎勵除以代幣數量,而是按每個代幣的平均值進行評分。結果是模型保持簡潔和切題,而不是誇大對遊戲目標的反應。
技術洞察
DPO 的隱式獎勵是調整策略和參考策略之間的對數比,對回應中的每個令牌求和。因為每個令牌都會添加另一個(通常是正數)項,所以原始獎勵會隨著序列長度而縮放,從而使最佳化偏向於更長的完成時間。 SimPO 放棄了參考模型,並使用每個代幣的平均對數機率作為獎勵,加上目標獎勵幅度。除以長度消除了機械長度優勢,因此偏好梯度反映的是質量而不是字數。
掌握偏好優化中的長度標準化
長度標準化調整了偏好調整目標,因此模型不再僅僅透過編寫更長的答案來贏得認可。這很重要,因為未經糾正的獎勵訊號會促使聊天機器人做出冗長、填充的回應,而不是真正更好的回應。偏好優化中的長度標準化位於核心人工智慧工具包。當你理解它時,其他人工智慧主題就變得更容易評估和比較。為了建立深入的理解,請將偏好最佳化中的長度標準化視為一種操作模型,而不是單一功能:定義期望的結果,澄清假設,並將系統可以可靠地執行的操作與仍需要專家判斷的操作分開。
在實踐中,在偏好最佳化中使用長度歸一化的強大團隊首先建立強大的概念模型,然後將這些模型對應到實際的生產限制。他們記錄明確的成功標準,根據實際數據和工作流程進行測試,並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。
它可以幫助您將清晰的技術聲明與行銷語言分開。同時,不同的團隊可能會以不同的方式使用相同術語,因此請儘早定義範圍。最具彈性的方法是將實驗速度與治理規則結合:運行試點、捕獲證據、發布決策日誌,並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。
戰略影響
它可以幫助您將清晰的技術聲明與行銷語言分開。
它可以幫助您將清晰的技術聲明與行銷語言分開。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。
在花費金錢或時間之前,您可以提出更好的實施問題。
在花費金錢或時間之前,您可以提出更好的實施問題。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。
具有共同理解的團隊可以做出更好的產品、政策和學習決策。
具有共同理解的團隊可以做出更好的產品、政策和學習決策。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。
現實世界的實施
使用 SimPO 調整客戶支援助理,使其給出清晰、準確的答复,而不是看起來詳盡的填充段落。
報告 AlpacaEval 2 上的“長度控制勝率”,以表明模型得到了真正的改進,而不僅僅是變得更喋喋不休。
在微調編碼模型時向 DPO 添加長度標準化,以便它返回最少的正確片段,而不是臃腫的樣板。
診斷一個獎勵模型,該模型可以系統地為較長的論文評分更高,然後在使用它來調整寫作助理之前對其進行消除偏差。
實施模式
實務上偏好優化的長度歸一化
使用 SimPO 調整客戶支援助理,使其給出清晰、準確的答复,而不是看起來詳盡的填充段落。
使用 SimPO 調整客戶支援助理,使其提供清晰、準確的答复,而不是看起來很徹底的填充段落。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會得到更好的結果。
實務上偏好優化的長度歸一化
報告 AlpacaEval 2 上的“長度控制勝率”,以表明模型得到了真正的改進,而不僅僅是變得更喋喋不休。
在 AlpacaEval 2 上報告“長度控制的勝率”,以顯示模型得到了真正的改進,而不僅僅是變得更喋喋不休。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。
實務上偏好優化的長度歸一化
在微調編碼模型時向 DPO 添加長度標準化,以便它返回最少的正確片段,而不是臃腫的樣板。
在微調編碼模型時向 DPO 添加長度規範化,使其返回最少的正確片段,而不是臃腫的樣板。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤隨著時間的推移提高的生產力和錯誤成本時,通常會獲得更好的結果。
實務上偏好優化的長度歸一化
診斷一個獎勵模型,該模型可以系統地為較長的論文評分更高,然後在使用它來調整寫作助理之前對其進行消除偏差。
診斷一個獎勵模型,系統地為較長的論文評分更高,然後在使用它來調整寫作助理之前對其進行消除偏差。當團隊預先定義品質閾值,為邊緣情況保留人工升級路徑,並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會得到更好的結果。
風險與防護欄
不同的團隊可能會以不同的方式使用相同術語,因此請儘早定義範圍。
基準測試可能看起來很強大,但實際效能卻參差不齊。
忽視數據品質和評估計劃通常會產生脆弱的結果。
實施路線圖
從您需要的結果的簡單語言定義開始。
從您需要的結果的簡單語言定義開始。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。
在測試之前選擇一種成功指標和一種失敗條件。
在測試之前選擇一種成功指標和一種失敗條件。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。
使用代表性資料運行小型試點,而不是完善的演示集。
使用代表性資料運行小型試點,而不是完善的演示集。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。
記錄偏好優化中長度歸一化的哪些方面有幫助以及哪些更簡單的方法更好。
記錄偏好優化中長度歸一化的哪些方面有幫助以及哪些更簡單的方法更好。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。