技術指南

混合模型和稀疏模型

Mixtral 是 Mistral AI 的開放式專家混合模型,能夠以小模型速度提供大模型品質。

概述

Mixtral 是 Mistral AI 的開放式專家混合模型,能夠以小模型速度提供大模型品質。像它這樣的稀疏模型只激活每個令牌的一小部分參數,在不犧牲能力的情況下減少計算量。

混合和稀疏模型是一個技術構建塊,會大規模影響模型品質、基礎設施成本、延遲和可靠性。

深入探討

Mistral AI 在 2023 年底發布的 Mixtral 8x7B 推廣了開放模型中的稀疏專家混合 (MoE) 方法。它每層包含八個獨立的「專家」前饋網絡,總參數約 470 億個,但輕量級路由器僅為每個令牌選擇兩名專家。因此,每個令牌只有大約 130 億個參數處於活動狀態,因此推理運行速度與 13B 密集模型一樣快,同時達到與更大模型相當的品質。 Mixtral 在許多基準測試中匹配或擊敗了 GPT-3.5 和 Llama 2 70B,同時服務速度更快、成本更低。 Mistral 後來發布了 Mixtral 8x22B。該模型在 Apache 2.0 下公開許可,促進了開源社群的快速採用和微調。

技術洞察

在稀疏 MoE 層中,密集前饋塊被 N 個專家網路加上一個小型門控網路(路由器)取代。對於每個令牌,路由器計算分數並選擇前 k 個專家(Mixtral 中的前 2 個),僅透過這些專家路由令牌。它們的輸出被加權並求和。由於大多數專家在每個令牌上都處於空閒狀態,因此該模型在記憶體中保存了許多參數,但計算量卻少得多。權衡:所有專家都必須加載到 VRAM 中,即使只有一些專家運行。

掌握混合和稀疏模型

Mixtral 是 Mistral AI 的開放式專家混合模型,能夠以小模型速度提供大模型品質。像它這樣的稀疏模型只激活每個令牌的一小部分參數,在不犧牲能力的情況下減少計算量。混合和稀疏模型是一個技術構建塊,會大規模影響模型品質、基礎設施成本、延遲和可靠性。為了建立深入的理解,請將混合模型和稀疏模型視為一種操作模型,而不是單一功能:定義所需的結果,澄清假設,並將系統可以可靠地執行的操作與仍需要專家判斷的操作分開。

在實踐中,使用混合模型和稀疏模型的強大團隊根據可靠性和成本優化架構、資料和基礎設施選擇。他們記錄明確的成功標準,根據實際數據和工作流程進行測試,並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

多年來,架構決策決定著效能和營運成本。同時,優化一個基準測試可以隱藏更廣泛的系統弱點。最具彈性的方法是將實驗速度與治理規則結合:運行試點、捕獲證據、發布決策日誌,並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

多年來,架構決策決定著效能和營運成本。

多年來,架構決策決定著效能和營運成本。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

技術教育幫助團隊選擇正確的堆疊,而不僅僅是最新的堆疊。

技術教育幫助團隊選擇正確的堆疊,而不僅僅是最新的堆疊。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

更好的工程選擇可以減少生產中的可靠性事故。

更好的工程選擇可以減少生產中的可靠性事故。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

混合模型和稀疏模型的未來

稀疏 MoE 現在是前沿人工智慧的核心。預計會有更多開放的 MoE 版本、與許多小型專家一起進行更細粒度的路由,以及可進一步提高效率的共享或混合專家設計。隨著模型擴展到數萬億個總參數,稀疏性是保持推理負擔得起的主要槓桿。研究正在解決 MoE 的弱點、專家之間的負載平衡、記憶體開銷和訓練穩定性,而硬體和服務堆疊越來越多地專門針對專家路由進行最佳化。

現實世界的實施

以更小的密集模型的成本和速度提供高品質的聊天機器人

自託管商業產品的 Apache-2.0 授權模型,無需使用費

微調 Mixtral 上的個人行為以進行編碼、摘要或多語言任務

在單一多 GPU 伺服器上執行快速推理,其中 70B 密集模型會太慢

實施模式

實踐中的混合模型和稀疏模型

以小得多的密集模型的成本和速度提供高品質的聊天機器人。

以更小的密集模型的成本和速度提供高品質的聊天機器人當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移跟踪生產力增益和錯誤成本時,通常會獲得更好的結果。

實踐中的混合模型和稀疏模型

自託管商業產品的 Apache-2.0 授權模型,無需使用費用。

為商業產品自行託管 Apache-2.0 授權模型,無需支付使用費 當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時,通常會獲得更好的結果。

實踐中的混合模型和稀疏模型

微調 Mixtral 上的個人行為以進行編碼、摘要或多語言任務。

在 Mixtral 上微調個人行為以進行編碼、摘要或多語言任務 當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時,通常會獲得更好的結果。

實踐中的混合模型和稀疏模型

在單一多 GPU 伺服器上執行快速推理,其中 70B 密集模型會太慢。

在單一多 GPU 伺服器上執行快速推理,其中 70B 密集模型會太慢。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

風險與防護欄

!

優化一項基準測試可以隱藏更廣泛的系統弱點。

!

基礎設施和維護成本常常被低估。

!

隨著系統變得更加複雜,安全性和可觀察性差距可能會擴大。

實施路線圖

1

在實施之前定義延遲、品質和成本目標。

在實施之前定義延遲、品質和成本目標。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

2

在實際負載和資料條件下進行基準測試。

在實際負載和資料條件下進行基準測試。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

3

儀器監控錯誤、漂移和使用者影響。

儀器監控錯誤、漂移和使用者影響。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

4

在擴展之前準備回滾和事件回應路徑。

在擴展之前準備回滾和事件回應路徑。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

不斷探索