技術指南

MoE 服務的專家並行性

專家並行性將專家混合模型的許多前饋「專家」拆分到不同的 GPU 上，因此每個裝置僅保存一部分參數。

概述

專家並行性將專家混合模型的許多前饋「專家」拆分到不同的 GPU 上，因此每個裝置僅保存一部分參數。這是以低成本服務萬億參數 MoE 模型的關鍵，因為每個代幣只有少數專家在運行。

MoE 服務的專家並行性是一個技術構建塊，會大規模影響模型品質、基礎設施成本、延遲和可靠性。

深入探討

專家混合 (MoE) 層用許多較小的網絡（專家）取代一個大型前饋網絡，再加上一個為每個代幣挑選前 k 個（通常是 1 或 2 個）專家的路由器。專家並行 (EP) 將不同的專家置於不同的 GPU 上。在推理時，路由器決定每個令牌需要哪些專家，然後全對所有通訊步驟將令牌洗牌到保存其所選專家的 GPU，運行 FFN，並將結果洗牌回來。這使得模型具有巨大的總參數（稀疏），同時僅激活每個令牌的一小部分（低失敗率）。 Mixtral 8x7B、DeepSeek-V3 和 GPT-OSS 等模型都使用它。困難的部分是專家之間的負載平衡以及每層兩個昂貴的全對全跳。

技術洞察

核心機制是每個 MoE 層兩個全面的集體：調度（將代幣發送給專家）和組合（收集輸出）。由於路由依賴數據，因此到達每個專家的令牌數量各不相同，從而導致負載不平衡和「落後者」。服務系統添加容量因子、專家緩衝區以及令牌丟棄或填充，以保持 GEMM（矩陣乘法）統一，並且通常將全面通訊與專家計算重疊以隱藏延遲。

掌握 MoE 服務的專家並行性

專家並行性將專家混合模型的許多前饋「專家」拆分到不同的 GPU 上，因此每個裝置僅保存一部分參數。這是以低成本服務萬億參數 MoE 模型的關鍵，因為每個代幣只有少數專家在運行。 MoE 服務的專家並行性是一個技術構建塊，會大規模影響模型品質、基礎設施成本、延遲和可靠性。為了建立深入的理解，請將 MoE 服務的專家並行性視為一種操作模型，而不是單一功能：定義期望的結果，澄清假設，並將系統可以可靠地完成的任務與仍需要專家判斷的任務分開。

在實踐中，強大的團隊使用專家並行性進行 MoE 服務，根據可靠性和成本來優化架構、資料和基礎設施選擇。他們記錄明確的成功標準，根據實際數據和工作流程進行測試，並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

多年來，架構決策決定著效能和營運成本。同時，優化一個基準測試可以隱藏更廣泛的系統弱點。最具彈性的方法是將實驗速度與治理規則結合：運行試點、捕獲證據、發布決策日誌，並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

多年來，架構決策決定著效能和營運成本。

多年來，架構決策決定著效能和營運成本。在高品質部署中，這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式，以便團隊可以增強信心，而不是擴大模糊性。

技術教育幫助團隊選擇正確的堆疊，而不僅僅是最新的堆疊。

技術教育幫助團隊選擇正確的堆疊，而不僅僅是最新的堆疊。在高品質部署中，這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式，以便團隊可以增強信心，而不是擴大模糊性。

更好的工程選擇可以減少生產中的可靠性事故。

更好的工程選擇可以減少生產中的可靠性事故。在高品質部署中，這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式，以便團隊可以增強信心，而不是擴大模糊性。

MoE 服務專家並行的未來

預計路由和硬體將實現更緊密的協同設計：融合調度-計算-組合內核、可批量處理許多專家的分組 GEMM，以及支援 NVLink/InfiniBand 的全能型。 DeepSeek 的輔助無損平衡和節點限制路由等技術減少了跨節點流量。分解服務將專用於與注意力 GPU 分開的「專家」GPU，並且具有更精細的 top-k 的更大專家數量（數百個）將推動 MoE 走向極端稀疏，同時保持每個代幣成本平坦。

現實世界的實施

透過在每台裝置上放置 8 個專家中的 2-4 個，跨 2-4 個 GPU 提供 Mixtral 8x7B 服務

DeepSeek-V3 使用節點限制路由來限制代幣專家跨越的節點數量，從而減少節點間的全對全

使用 vLLM 或 SGLang 專家並行模式在單一 8-GPU 節點上託管 200B+ 稀疏模型

在混合 EP+TP 部署中將注意力層上的專家並行性與張量並行性結合

實施模式

MoE 實踐中的專家並行服務

透過在每台裝置上放置 8 個專家中的 2-4 個，跨 2-4 個 GPU 提供 Mixtral 8x7B 服務。

透過在每台裝置上放置 8 名專家中的 2-4 名，在 2-4 個 GPU 上為 Mixtral 8x7B 提供服務當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移跟踪生產力增益和錯誤成本時，通常會獲得更好的結果。

MoE 實踐中的專家並行服務

DeepSeek-V3 使用節點限制路由來限制代幣專家跨越的節點數量，從而削減節點間的所有節點。

DeepSeek-V3 使用節點限制路由來限制代幣專家跨越的節點數量，減少節點間的所有團隊在預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移跟踪生產力增益和錯誤成本時通常會獲得更好的結果。

MoE 實踐中的專家並行服務

使用 vLLM 或 SGLang 專家並行模式在單一 8-GPU 節點上託管 200B+ 稀疏模型。

使用 vLLM 或 SGLang 專家並行模式在單一 8-GPU 節點上託管 200B+ 稀疏模型當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時，通常會獲得更好的結果。

MoE 實踐中的專家並行服務

在混合 EP+TP 部署中將注意力層上的專家並行性與張量並行性結合。

在混合 EP+TP 部署中將專家並行性與注意力層上的張量並行性相結合當團隊預先定義質量閾值、為邊緣情況保留人工升級路徑並隨著時間的推移跟踪生產力增益和錯誤成本時，通常會獲得更好的結果。

風險與防護欄

優化一項基準測試可以隱藏更廣泛的系統弱點。

基礎設施和維護成本常常被低估。

隨著系統變得更加複雜，安全性和可觀察性差距可能會擴大。

實施路線圖

在實施之前定義延遲、品質和成本目標。

在實施之前定義延遲、品質和成本目標。將每個步驟視為證據門：如果不符合標準，則暫停推出，縮小差距，然後再擴大使用。

在實際負載和資料條件下進行基準測試。

在實際負載和資料條件下進行基準測試。將每個步驟視為證據門：如果不符合標準，則暫停推出，縮小差距，然後再擴大使用。

儀器監控錯誤、漂移和使用者影響。

儀器監控錯誤、漂移和使用者影響。將每個步驟視為證據門：如果不符合標準，則暫停推出，縮小差距，然後再擴大使用。

在擴展之前準備回滾和事件回應路徑。

在擴展之前準備回滾和事件回應路徑。將每個步驟視為證據門：如果不符合標準，則暫停推出，縮小差距，然後再擴大使用。

不斷探索

人工智慧基準

在比較技術選項時正確使用評估。

閱讀指南

強化學習

更深入了解技術培訓策略。

閱讀指南