技术指南

MoE 服务的专家并行性

专家并行性将专家混合模型的许多前馈“专家”拆分到不同的 GPU 上,因此每个设备仅保存一部分参数。

概述

专家并行性将专家混合模型的许多前馈“专家”拆分到不同的 GPU 上,因此每个设备仅保存一部分参数。这是以低成本服务万亿参数 MoE 模型的关键,因为每个代币只有少数专家运行。

MoE 服务的专家并行性是一个技术构建块,会大规模影响模型质量、基础设施成本、延迟和可靠性。

深入探讨

专家混合 (MoE) 层用许多较小的网络(专家)取代一个大型前馈网络,再加上一个为每个代币挑选前 k 个(通常是 1 或 2 个)专家的路由器。专家并行 (EP) 将不同的专家置于不同的 GPU 上。在推理时,路由器决定每个令牌需要哪些专家,然后全对所有通信步骤将令牌洗牌到保存其所选专家的 GPU,运行 FFN,并将结果洗牌回来。这使得模型具有巨大的总参数(稀疏),同时仅激活每个令牌的一小部分(低失败率)。 Mixtral 8x7B、DeepSeek-V3 和 GPT-OSS 等模型都使用它。困难的部分是专家之间的负载平衡以及每层两个昂贵的全对全跳。

技术洞察

核心机制是每个 MoE 层两个全面的集体:调度(将代币发送给专家)和组合(收集输出)。由于路由依赖于数据,因此到达每个专家的令牌数量各不相同,从而导致负载不平衡和“落后者”。服务系统添加容量因子、专家缓冲区以及令牌丢弃或填充,以保持 GEMM(矩阵乘法)统一,并且通常将全面通信与专家计算重叠以隐藏延迟。

掌握 MoE 服务的专家并行性

专家并行性将专家混合模型的许多前馈“专家”拆分到不同的 GPU 上,因此每个设备仅保存一部分参数。这是以低成本服务万亿参数 MoE 模型的关键,因为每个代币只有少数专家运行。 MoE 服务的专家并行性是一个技术构建块,会大规模影响模型质量、基础设施成本、延迟和可靠性。为了建立深入的理解,请将 MoE 服务的专家并行性视为一种操作模型,而不是单一功能:定义期望的结果,澄清假设,并将系统可以可靠地完成的任务与仍需要专家判断的任务分开。

在实践中,强大的团队使用专家并行性进行 MoE 服务,根据可靠性和成本来优化架构、数据和基础设施选择。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

多年来,架构决策决定着性能和运营成本。与此同时,优化一个基准测试可以隐藏更广泛的系统弱点。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

多年来,架构决策决定着性能和运营成本。

多年来,架构决策决定着性能和运营成本。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

技术教育帮助团队选择正确的堆栈,而不仅仅是最新的堆栈。

技术教育帮助团队选择正确的堆栈,而不仅仅是最新的堆栈。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

更好的工程选择可以减少生产中的可靠性事故。

更好的工程选择可以减少生产中的可靠性事故。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

MoE 服务专家并行的未来

预计路由和硬件将实现更紧密的协同设计:融合调度-计算-组合内核、可批量处理许多专家的分组 GEMM,以及支持 NVLink/InfiniBand 的全能型。 DeepSeek 的辅助无损平衡和节点限制路由等技术减少了跨节点流量。分解服务将专用于与注意力 GPU 分开的“专家”GPU,并且具有更精细的 top-k 的更大专家数量(数百个)将推动 MoE 走向极端稀疏,同时保持每个代币成本平坦。

现实世界的实施

通过在每台设备上放置 8 个专家中的 2-4 个,跨 2-4 个 GPU 提供 Mixtral 8x7B 服务

DeepSeek-V3 使用节点限制路由来限制代币专家跨越的节点数量,从而减少节点间的全对全

使用 vLLM 或 SGLang 专家并行模式在单个 8-GPU 节点上托管 200B+ 稀疏模型

在混合 EP+TP 部署中将注意力层上的专家并行性与张量并行性相结合

实施模式

MoE 实践中的专家并行服务

通过在每台设备上放置 8 个专家中的 2-4 个,跨 2-4 个 GPU 提供 Mixtral 8x7B 服务。

通过在每台设备上放置 8 名专家中的 2-4 名,在 2-4 个 GPU 上为 Mixtral 8x7B 提供服务 当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

MoE 实践中的专家并行服务

DeepSeek-V3 使用节点限制路由来限制代币专家跨越的节点数量,从而削减节点间的所有节点。

DeepSeek-V3 使用节点限制路由来限制代币专家跨越的节点数量,减少节点间的所有团队在预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时通常会获得更好的结果。

MoE 实践中的专家并行服务

使用 vLLM 或 SGLang 专家并行模式在单个 8-GPU 节点上托管 200B+ 稀疏模型。

使用 vLLM 或 SGLang 专家并行模式在单个 8-GPU 节点上托管 200B+ 稀疏模型 当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

MoE 实践中的专家并行服务

在混合 EP+TP 部署中将注意力层上的专家并行性与张量并行性相结合。

在混合 EP+TP 部署中将专家并行性与注意力层上的张量并行性相结合当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

风险与防护栏

!

优化一项基准测试可以隐藏更广泛的系统弱点。

!

基础设施和维护成本常常被低估。

!

随着系统变得更加复杂,安全性和可观察性差距可能会扩大。

实施路线图

1

在实施之前定义延迟、质量和成本目标。

在实施之前定义延迟、质量和成本目标。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

在实际负载和数据条件下进行基准测试。

在实际负载和数据条件下进行基准测试。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

仪器监控错误、漂移和用户影响。

仪器监控错误、漂移和用户影响。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

在扩展之前准备回滚和事件响应路径。

在扩展之前准备回滚和事件响应路径。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索