概述
專家混合 (MoE) 是一種模型設計,它將網絡分成許多專門的子網絡,並且每個輸入僅激活幾個子網絡。它讓模型掌握大量知識,同時保持每次預測快速且便宜。
專家混合是一個技術構建塊,會大規模影響模型品質、基礎設施成本、延遲和可靠性。
深入探討
標準變壓器透過相同的密集層運行每個輸入,因此使模型更聰明通常意味著使每個計算更加昂貴。專家的混合打破了這種聯繫。它用許多較小的「專家」網路以及一個決定哪些專家處理每個代幣的小型「路由器」取代了大型前饋層。通常只有前 1 或 2 位專家會觸發,因此模型可以擁有數千億個總參數,但每個令牌僅啟動一小部分。這就是為什麼像 Mixtral 8x7B 這樣的模型和傳聞中的 GPT-4 架構能夠在沒有相應高推理成本的情況下達到高品質。權衡是複雜性:所有專家仍然必須適合內存,並且路由器可能會錯誤路由或過載某些專家,因此訓練需要仔細平衡。
技術洞察
MoE 的核心是門控網絡,這是一個小型學習層,它對每個專家的傳入令牌進行評分,並將令牌路由到前 k 個最高得分者(通常 k=1 或 2)。為了阻止路由器將所有內容發送給一些最喜歡的專家,訓練添加了輔助“負載平衡損失”,以懲罰不均勻的使用。由於每個代幣只有 k 個專家運行,因此即使添加更多專家,計算(FLOP)也大致保持不變,因此總參數和每個代幣成本獨立擴展。
掌握專家組合
專家混合 (MoE) 是一種模型設計,它將網絡分成許多專門的子網絡,並且每個輸入僅激活幾個子網絡。它讓模型掌握大量知識,同時保持每次預測快速且便宜。專家混合是一個技術構建塊,會大規模影響模型品質、基礎設施成本、延遲和可靠性。為了建立深入的理解,請將專家混合視為一種操作模型,而不是單一功能:定義期望的結果,澄清假設,並將系統可以可靠地完成的任務與仍需要專家判斷的任務分開。
在實踐中,強大的團隊使用專家混合來根據可靠性和成本優化架構、數據和基礎設施選擇。他們記錄明確的成功標準,根據實際數據和工作流程進行測試,並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。
多年來,架構決策決定著效能和營運成本。同時,優化一個基準測試可以隱藏更廣泛的系統弱點。最具彈性的方法是將實驗速度與治理規則結合:運行試點、捕獲證據、發布決策日誌,並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。
戰略影響
多年來,架構決策決定著效能和營運成本。
多年來,架構決策決定著效能和營運成本。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。
技術教育幫助團隊選擇正確的堆疊,而不僅僅是最新的堆疊。
技術教育幫助團隊選擇正確的堆疊,而不僅僅是最新的堆疊。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。
更好的工程選擇可以減少生產中的可靠性事故。
更好的工程選擇可以減少生產中的可靠性事故。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。
現實世界的實施
Mixtral 8x7B 使用 8 個專家,每個令牌啟動 2 個專家,總共提供大約 47B 個參數,但每個令牌只有約 13B 個活躍參數,以實現更快、更便宜的推理。
DeepSeek 和 Qwen 提供了大型 MoE 語言模型,可在基準測試中匹配密集模型,同時以較低的每個代幣計算運行。
雲端 LLM 提供者使用 MoE,因此一個龐大的模型可以經濟實惠地為許多用戶提供服務,因為每個請求只能滿足少數專家的需求。
Google 的早期 Switch Transformer 使用 top-1 路由擴展到超過一兆個參數,以維持訓練運算的可管理性。
實施模式
實踐中的專家組合
Mixtral 8x7B 使用 8 個專家,每個令牌啟動 2 個專家,總共提供大約 47B 個參數,但每個令牌只有約 13B 個活躍參數,以實現更快、更便宜的推理。
Mixtral 8x7B 使用 8 名專家,每個令牌啟動 2 個專家,提供大約 47B 的總參數,但每個令牌僅約 13B 活動,以實現更快、更便宜的推理。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會得到更好的結果。
實踐中的專家組合
DeepSeek 和 Qwen 提供了大型 MoE 語言模型,可在基準測試中匹配密集模型,同時以較低的每個代幣計算運行。
DeepSeek 和 Qwen 提供了大型 MoE 語言模型,這些模型與基準上的密集模型相匹配,同時以較低的每個代幣計算量運行。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。
實踐中的專家組合
雲端 LLM 提供者使用 MoE,因此一個龐大的模型可以經濟實惠地為許多用戶提供服務,因為每個請求只能滿足少數專家的需求。
雲端 LLM 供應商使用 MoE,因此單一龐大的模式可以經濟實惠地為許多用戶提供服務,因為每個請求只會激發少數專家。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會得到更好的結果。
實踐中的專家組合
Google 的早期 Switch Transformer 使用 top-1 路由擴展到超過一兆個參數,以維持訓練運算的可管理性。
Google 的早期 Switch Transformer 使用 top-1 路由擴展到超過一兆個參數,以維持訓練運算的可管理性。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。
風險與防護欄
優化一項基準測試可以隱藏更廣泛的系統弱點。
基礎設施和維護成本常常被低估。
隨著系統變得更加複雜,安全性和可觀察性差距可能會擴大。
實施路線圖
在實施之前定義延遲、品質和成本目標。
在實施之前定義延遲、品質和成本目標。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。
在實際負載和資料條件下進行基準測試。
在實際負載和資料條件下進行基準測試。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。
儀器監控錯誤、漂移和使用者影響。
儀器監控錯誤、漂移和使用者影響。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。
在擴展之前準備回滾和事件回應路徑。
在擴展之前準備回滾和事件回應路徑。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。