語言人工智慧指南

比值比偏好優化

比值比偏好最佳化 (ORPO) 是一種微調方法,可在單次訓練中教會語言模型良好的行為和人類偏好。

概述

比值比偏好最佳化 (ORPO) 是一種微調方法,可在單次訓練中教會語言模型良好的行為和人類偏好。這很重要,因為它跳過了通常的單獨獎勵模型和參考模型,使對齊更便宜、更簡單。

優勢比偏好優化是用於大規模閱讀、生成、分類和轉換文字和語音的語言人工智慧堆疊的一部分。

深入探討

ORPO 由 Hong、Lee 和 Thorne 於 2024 年提出,將監督微調和偏好調整合而為一。大多數對齊管道首先對好的範例進行 SFT,然後運行第二種方法,例如 RLHF 或 DPO,該方法需要模型的凍結副本(參考)以及儲存的偏好對。 ORPO 完全刪除了參考模型。它的損失為標準的下一個令牌目標增加了一個懲罰項:它提高了模型分配給所選(首選)回應的幾率,同時降低了拒絕回應的幾率。因為它使用優勢比而不是強大的對數機率差距,所以懲罰很溫和,因此模型學會了支持好的答案,而不會災難性地忘記流暢的生成。

技術洞察

ORPO 的損失是 SFT 交叉熵損失加上所選響應和拒絕響應之間對數優勢比的加權對數 sigmoid。賠率等於 p/(1-p),因此該比率會比較模型找到好答案與壞答案的可能性有多大。使用賠率而不是原始機率可以保持對比溫和,從而防止過度抑制被拒絕的標記,從而降低未引用模型的性能。

掌握優勢比偏好優化

比值比偏好最佳化 (ORPO) 是一種微調方法,可在單次訓練中教會語言模型良好的行為和人類偏好。這很重要,因為它跳過了通常的單獨獎勵模型和參考模型,使對齊更便宜、更簡單。優勢比偏好優化是用於大規模閱讀、生成、分類和轉換文字和語音的語言人工智慧堆疊的一部分。為了建立深入的理解,請將優勢比偏好最佳化視為一種操作模型,而不是單一功能:定義期望的結果,澄清假設,並將系統可以可靠地執行的操作與仍需要專家判斷的操作分開。

在實踐中,強大的團隊使用優勢比偏好優化將提示、檢索和審查循環設計為一個整合的通訊系統。他們記錄明確的成功標準,根據實際數據和工作流程進行測試,並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

語言工作流程可以在不犧牲一致性的情況下更快地移動。同時,幻覺事實可以悄悄地進入報告、支持流程或研究成果。最具彈性的方法是將實驗速度與治理規則結合:運行試點、捕獲證據、發布決策日誌,並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

語言工作流程可以在不犧牲一致性的情況下更快地移動。

語言工作流程可以在不犧牲一致性的情況下更快地移動。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

它擴展了跨語言和溝通方式的訪問。

它擴展了跨語言和溝通方式的訪問。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

團隊可以花更多時間進行判斷,而自動化則可以處理重複。

團隊可以花更多時間進行判斷,而自動化則可以處理重複。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

比值比偏好優化的未來

ORPO 越來越受歡迎,因為它透過放棄參考模型來減少記憶體和運算量,這對於在有限硬體上進行微調的團隊很有吸引力。預計它將更頻繁地出現在開源食譜中,並作為 Hugging Face TRL 等庫的預設選項。未來的工作可能會自動調整 lambda 權重,將 ORPO 與其他無參考目標混合,並將其擴展到多模式和非常大的模型,在這些模型中,在記憶體中保存兩個副本的成本很高。

現實世界的實施

在偏好對上微調開源 7B 聊天模型,無需載入第二個參考副本,從而將 GPU 記憶體減半

一家新創公司將客戶支援助理調整為在一次培訓中更喜歡禮貌、符合政策的答案,而不是 SFT-then-DPO

研究人員在同一資料集上將 ORPO 與 DPO 進行比較,以顯示較低計算量的可比較一致性

將基本模型調整到專門領域(例如法律起草),其中可以使用好的和壞的範例對,但沒有獎勵模型預算

實施模式

優勢比偏好優化實踐

在偏好對上微調開源 7B 聊天模型,無需載入第二個參考副本,從而將 GPU 記憶體減半。

在偏好對上微調開源 7B 聊天模型,無需載入第二個參考副本,將 GPU 記憶體減半。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

優勢比偏好優化實踐

一家新創公司將客戶支援助理調整為在一次培訓中更喜歡禮貌、符合政策的答案,而不是先是 SFT,然後是 DPO。

一家新創公司在一次培訓中讓客戶支援助理優先選擇禮貌、符合政策的答案,而不是 SFT 然後是 DPO 團隊,如果他們預先定義品質閾值,為邊緣情況保留人工升級路徑,並隨著時間的推移跟踪生產力增益和錯誤成本,通常會獲得更好的結果。

優勢比偏好優化實踐

研究人員在同一資料集上將 ORPO 與 DPO 進行比較,以顯示較低計算量下的可比較一致性。

研究人員在同一資料集上將 ORPO 與 DPO 進行比較,以顯示與較低運算能力的可比較一致性。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力增益和錯誤成本時,通常會獲得更好的結果。

優勢比偏好優化實踐

將基本模型調整到專門領域(例如法律起草),其中可以使用好的和壞的範例對,但不能使用獎勵模型預算。

將基本模型適應專門領域(例如法律起草),其中可以使用好的和壞的範例對,但沒有獎勵模型預算。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會得到更好的結果。

風險與防護欄

!

幻覺的事實可以悄悄地進入報告、支持流程或研究成果。

!

及時的敏感性可能會在類似的請求中產生不一致的結果。

!

如果存取控制薄弱,敏感文字資料可能會暴露。

實施路線圖

1

在推出之前定義輸出格式、語氣和品質標準。

在推出之前定義輸出格式、語氣和品質標準。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

2

當準確性很重要時,請使用可信任來源進行地面回應。

當準確性很重要時,請使用可信任來源進行地面回應。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

3

為高風險輸出保留人工審查檢查點。

為高風險輸出保留人工審查檢查點。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

4

追蹤故障模式並定期重新訓練提示或工作流程。

追蹤故障模式並定期重新訓練提示或工作流程。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

不斷探索