技术指南

多实例GPU分区

多实例 GPU (MIG) 是一项 NVIDIA 技术,可将单个物理 GPU 分割为多个独立的硬件分区。

概述

多实例 GPU (MIG) 是一项 NVIDIA 技术,可将单个物理 GPU 分割为多个独立的硬件分区。这很重要,因为它可以让一个昂贵的加速器同时处理许多小型工作负载,而不会相互干扰。

多实例 GPU 分区是一个技术构建块,会大规模影响模型质量、基础设施成本、延迟和可靠性。

深入探讨

MIG 随 NVIDIA A100 (Ampere) 推出,并在 H100 和更新的数据中心 GPU 上继续使用,将 GPU 划分为最多七个独立实例。与软件时间切片不同,MIG 提供真正的硬件隔离:每个实例都有自己的专用流式多处理器 (SM)、L2 缓存切片、内存控制器和固定的高带宽内存切片。 40GB 的 A100 可以拆分为七个 5GB 实例,或更少的较大实例。每个分区的行为就像一个较小的独立 GPU,因此一个实例中的嘈杂或崩溃的作业不会导致另一个实例挨饿或损坏。这种有保证的服务质量使 MIG 非常适合推理服务、多租户集群以及许多用户共享一张卡的开发环境。

技术洞察

MIG 的工作原理是物理门控 GPU 的内部交叉开关,因此每个实例都有一条通往其自己的内存片和 SM 的固定路径。 NVIDIA 将配置文件定义为分数,例如 1g.5gb(一个计算切片,5GB)到 7g.40gb。 GPU实例保留内存和SM;其中计算实例进一步细分 SM。由于分区是硬件强制的,因此故障、ECC 错误和内存带宽仅限于单个实例。

掌握多实例 GPU 分区

多实例 GPU (MIG) 是一项 NVIDIA 技术,可将单个物理 GPU 分割为多个独立的硬件分区。这很重要,因为它可以让一个昂贵的加速器同时处理许多小型工作负载,而不会相互干扰。多实例 GPU 分区是一个技术构建块,会大规模影响模型质量、基础设施成本、延迟和可靠性。为了加深理解,请将多实例 GPU 分区视为一种​​操作模型,而不是单个功能:定义所需的结果、澄清假设,并将系统可以可靠地执行的操作与仍需要专家判断的操作分开。

在实践中,强大的团队使用多实例 GPU 分区根据可靠性和成本优化架构、数据和基础设施选择。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

多年来,架构决策决定着性能和运营成本。与此同时,优化一个基准测试可以隐藏更广泛的系统弱点。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

多年来,架构决策决定着性能和运营成本。

多年来,架构决策决定着性能和运营成本。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

技术教育帮助团队选择正确的堆栈,而不仅仅是最新的堆栈。

技术教育帮助团队选择正确的堆栈,而不仅仅是最新的堆栈。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

更好的工程选择可以减少生产中的可靠性事故。

更好的工程选择可以减少生产中的可靠性事故。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

多实例 GPU 分区的未来

随着 GPU 增长到 80GB、141GB 甚至更高,分区变得更具吸引力,因为单个模型很少需要整张卡进行推理。期待更紧密的 Kubernetes 和云集成、无需耗尽节点的动态重新分区以及更细粒度的配置文件。竞争厂商正在追求类似的 SR-IOV 式 GPU 虚拟化,无服务器推理平台越来越依赖分区来密集打包许多模型并减少闲置浪费。

现实世界的实施

一家云提供商将一个 A100 拆分为七个实例,以便七个客户每个都获得一个有保证的、独立的 GPU 切片用于推理。

大学研究集群为每个博士生提供一个 10GB MIG 实例用于原型设计,而不是独占整张卡。

推理服务将多个小型语言和视觉模型打包到一个 H100 上,每个模型都位于自己的分区中,具有可预测的延迟。

Kubernetes 集群将 MIG 实例宣传为可调度资源,因此 Pod 会像任何其他资源一样请求“nvidia.com/mig-1g.5gb”。

实施模式

多实例 GPU 分区实践

一家云提供商将一个 A100 拆分为七个实例,以便七个客户每个都获得一个有保证的、独立的 GPU 切片用于推理。

云提供商将一台 A100 拆分为 7 个实例,以便每个 7 个客户获得一个有保证的、独立的 GPU 切片用于推理。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会获得更好的结果。

多实例 GPU 分区实践

大学研究集群为每个博士生提供一个 10GB MIG 实例用于原型设计,而不是独占整张卡。

大学研究集群为每个博士生提供一个 10GB MIG 实例用于原型设计,而不是垄断整个卡。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

多实例 GPU 分区实践

推理服务将多个小型语言和视觉模型打包到一个 H100 上,每个模型都位于自己的分区中,具有可预测的延迟。

推理服务将多个小型语言和视觉模型打包到一个 H100 上,每个模型都位于自己的分区中,并具有可预测的延迟。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

多实例 GPU 分区实践

Kubernetes 集群将 MIG 实例宣传为可调度资源,因此 Pod 会像任何其他资源一样请求“nvidia.com/mig-1g.5gb”。

Kubernetes 集群将 MIG 实例宣传为可调度资源,因此 pod 会像任何其他资源一样请求“nvidia.com/mig-1g.5gb”。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

风险与防护栏

!

优化一项基准测试可以隐藏更广泛的系统弱点。

!

基础设施和维护成本常常被低估。

!

随着系统变得更加复杂,安全性和可观察性差距可能会扩大。

实施路线图

1

在实施之前定义延迟、质量和成本目标。

在实施之前定义延迟、质量和成本目标。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

在实际负载和数据条件下进行基准测试。

在实际负载和数据条件下进行基准测试。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

仪器监控错误、漂移和用户影响。

仪器监控错误、漂移和用户影响。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

在扩展之前准备回滚和事件响应路径。

在扩展之前准备回滚和事件响应路径。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索