技術指南

模型合併

模型合併將兩個或多個經過訓練的神經網路的權重合併為一個模型，無需任何重新訓練或存取原始訓練資料。

概述

模型合併將兩個或多個經過訓練的神經網路的權重合併為一個模型，無需任何重新訓練或存取原始訓練資料。這很重要，因為它可以讓團隊以低廉的成本融合專業技能，將昂貴的微調模型轉變為可重複使用的構建塊。

模型合併是一個技術構建塊，會大規模影響模型品質、基礎設施成本、延遲和可靠性。

深入探討

模型合併融合了共享相同架構的多個模型的實際參數（權重）。最簡單的方法是權重平均，只需取對應權重的平均值。更聰明的方法使用「任務向量」——微調模型與其基礎之間的差異。增加任務向量會注入技能；減去它可以消除不必要的行為。 TIES-Merging 和 DARE 等技術會修剪和重新調整這些向量，以減少組合多個模型時的干擾。由於不需要梯度下降或數據，因此合併在筆記型電腦上只需幾秒鐘即可運行。問題是：它僅在模型從公共基礎下降並位於權重空間的兼容區域時才起作用。

技術洞察

關鍵思想是微調沿著基本模型附近相對平坦的「損失盆地」移動權重。任務向量很簡單（微調權重減去基本權重）。由於這些向量大致是線性的，並且在不同的任務中通常接近正交，因此您可以將多個向量添加在一起，並且組合模型保留每項技能。 TIES 和 DARE 首先修剪小的或衝突的權重增量以減少符號分歧，然後合併，防止一項任務覆蓋另一項任務。

掌握模型合併

模型合併將兩個或多個經過訓練的神經網路的權重合併為一個模型，無需任何重新訓練或存取原始訓練資料。這很重要，因為它可以讓團隊以低廉的成本融合專業技能，將昂貴的微調模型轉變為可重複使用的構建塊。模型合併是一個技術構建塊，會大規模影響模型品質、基礎設施成本、延遲和可靠性。為了建立深入的理解，請將模型合併視為一種操作模型，而不是單一功能：定義期望的結果，澄清假設，並將系統可以可靠地執行的操作與仍需要專家判斷的操作分開。

在實踐中，強大的團隊使用模型合併根據可靠性和成本優化架構、資料和基礎設施選擇。他們記錄明確的成功標準，根據實際數據和工作流程進行測試，並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

多年來，架構決策決定著效能和營運成本。同時，優化一個基準測試可以隱藏更廣泛的系統弱點。最具彈性的方法是將實驗速度與治理規則結合：運行試點、捕獲證據、發布決策日誌，並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

多年來，架構決策決定著效能和營運成本。

多年來，架構決策決定著效能和營運成本。在高品質部署中，這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式，以便團隊可以增強信心，而不是擴大模糊性。

技術教育幫助團隊選擇正確的堆疊，而不僅僅是最新的堆疊。

技術教育幫助團隊選擇正確的堆疊，而不僅僅是最新的堆疊。在高品質部署中，這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式，以便團隊可以增強信心，而不是擴大模糊性。

更好的工程選擇可以減少生產中的可靠性事故。

更好的工程選擇可以減少生產中的可靠性事故。在高品質部署中，這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式，以便團隊可以增強信心，而不是擴大模糊性。

模型合併的未來

預計合併將成為「供應鏈」模型的標準組成部分。集線器已經託管了數千個可合併的檢查點，而像 mergekit 這樣的工具使食譜可以共享。研究正在轉向自動合併搜尋（選擇逐層混合比率的演化演算法）、跨略有不同的架構進行合併，以及即時合併專家混合組件。隨著開放微調的激增，合併提供了一種近乎免費的方式來組合功能，儘管合併模型的許可和來源將需要更清晰的標準。

現實世界的實施

將編碼調整模型與聊天調整模型混合在一起，使法學碩士既可以自然地編寫程式碼又可以自然地交談，而無需重新培訓。

進化合併實驗將日文模型與英語數學模型結合，產生強大的日文數學解算器。

從模型的權重中減去「毒性」任務向量，以減少有害輸出，而無需收集新的安全資料。

將多個經過不同書寫風格訓練的 LoRA 轉接器合併為一個可以靈活切換語氣的模型。

實施模式

模型合併實踐

將編碼調整模型與聊天調整模型混合在一起，使法學碩士既可以自然地編寫程式碼又可以自然地交談，而無需重新培訓。

將編碼調整的模型與聊天調整的模型混合在一起，這樣一個法學碩士既可以自然地編寫代碼，又可以自然地進行對話，而無需重新培訓任何一個團隊，當他們預先定義質量閾值、為邊緣情況保留人工升級路徑並隨著時間的推移跟踪生產力增益和錯誤成本時，通常會獲得更好的結果。

模型合併實踐

進化合併實驗將日文模型與英語數學模型結合，產生強大的日文數學解算器。

將日語模型與英語數學模型相結合以產生強大的日語數學求解器的進化合併實驗當團隊預先定義質量閾值、為邊緣情況保留人工升級路徑並隨著時間的推移跟踪生產力增益和錯誤成本時，通常會獲得更好的結果。

模型合併實踐

從模型的權重中減去「毒性」任務向量，以減少有害輸出，而無需收集新的安全資料。

從模型的權重中減去「毒性」任務向量，以減少有害輸出，而無需收集新的安全資料。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時，通常會獲得更好的結果。

模型合併實踐

將多個經過不同書寫風格訓練的 LoRA 轉接器合併為一個可以靈活切換語氣的模型。

將經過不同寫作風格訓練的多個 LoRA 適配器合併到一個可以靈活切換語氣的模型中團隊在預先定義質量閾值、為邊緣情況保留人工升級路徑並隨著時間的推移跟踪生產力增益和錯誤成本時，通常會獲得更好的結果。

風險與防護欄

優化一項基準測試可以隱藏更廣泛的系統弱點。

基礎設施和維護成本常常被低估。

隨著系統變得更加複雜，安全性和可觀察性差距可能會擴大。

實施路線圖

在實施之前定義延遲、品質和成本目標。

在實施之前定義延遲、品質和成本目標。將每個步驟視為證據門：如果不符合標準，則暫停推出，縮小差距，然後再擴大使用。

在實際負載和資料條件下進行基準測試。

在實際負載和資料條件下進行基準測試。將每個步驟視為證據門：如果不符合標準，則暫停推出，縮小差距，然後再擴大使用。

儀器監控錯誤、漂移和使用者影響。

儀器監控錯誤、漂移和使用者影響。將每個步驟視為證據門：如果不符合標準，則暫停推出，縮小差距，然後再擴大使用。

在擴展之前準備回滾和事件回應路徑。

在擴展之前準備回滾和事件回應路徑。將每個步驟視為證據門：如果不符合標準，則暫停推出，縮小差距，然後再擴大使用。

不斷探索

人工智慧基準

在比較技術選項時正確使用評估。

閱讀指南

強化學習

更深入了解技術培訓策略。

閱讀指南