技术指南

InfiniBand 和 RDMA 网络

InfiniBand 是一种高速、低延迟互连,可链接 AI 集群中的服务器和 GPU,而 RDMA 则允许一台机器在不涉及 CPU 的情况下读取或写入另一台机器的内存。

概述

InfiniBand 是一种高速、低延迟互连,可链接 AI 集群中的服务器和 GPU,而 RDMA 则允许一台机器在不涉及 CPU 的情况下读取或写入另一台机器的内存。它们共同构成了在大型模型训练期间为数千个 GPU 提供数据的管道。

InfiniBand 和 RDMA 网络是一个技术构建块,会大规模影响模型质量、基础设施成本、延迟和可靠性。

深入探讨

当您在数千个 GPU 上训练模型时,网络通常会成为瓶颈,而不是芯片。 InfiniBand 是专门为此构建的交换结构:它提供每秒数百吉比特的每链路带宽(NDR 以 400 Gb/s 的速度运行)和微秒级的延迟。其关键技巧是远程直接内存访问 (RDMA),它可以直接在两个节点的内存之间移动数据,绕过会降低普通 TCP/IP 速度的操作系统内核和 CPU 副本。这种“内核旁路”可以释放 CPU 周期并减少延迟。 InfiniBand 还为无损结构提供硬件流控制,NVIDIA 的 Quantum 交换机和 ConnectX 适配器在 AI 超级计算机中占据主导地位。 RoCE(融合以太网上的 RDMA)为以太网网络带来了类似的 RDMA 优势。

技术洞察

RDMA 通过动词和队列对工作。应用程序将工作请求发布到发送和接收队列;网络适​​配器(HCA)读取它们并将数据直接传输到远程主机上预先注册的固定内存区域。由于 NIC 在硬件中处理传输并且操作系统内核被绕过,因此批量传输的数据副本为零,并且没有每数据包的 CPU 中断。 InfiniBand 的链路层基于信用的流量控制可防止缓冲区溢出,从而使结构无损,不会出现重传风暴。

掌握 InfiniBand 和 RDMA 网络

InfiniBand 是一种高速、低延迟互连,可链接 AI 集群中的服务器和 GPU,而 RDMA 则允许一台机器在不涉及 CPU 的情况下读取或写入另一台机器的内存。它们共同构成了在大型模型训练期间为数千个 GPU 提供数据的管道。 InfiniBand 和 RDMA 网络是一个技术构建块,会大规模影响模型质量、基础设施成本、延迟和可靠性。为了加深理解,请将 InfiniBand 和 RDMA 网络视为一种操作模型,而不是单一功能:定义所需的结果,澄清假设,并将系统可以可靠地执行的操作与仍需要专家判断的操作分开。

在实践中,使用 InfiniBand 和 RDMA 网络的强大团队根据可靠性和成本优化架构、数据和基础设施选择。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

多年来,架构决策决定着性能和运营成本。与此同时,优化一个基准测试可以隐藏更广泛的系统弱点。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

多年来,架构决策决定着性能和运营成本。

多年来,架构决策决定着性能和运营成本。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

技术教育帮助团队选择正确的堆栈,而不仅仅是最新的堆栈。

技术教育帮助团队选择正确的堆栈,而不仅仅是最新的堆栈。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

更好的工程选择可以减少生产中的可靠性事故。

更好的工程选择可以减少生产中的可靠性事故。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

InfiniBand 和 RDMA 网络的未来

带宽不断攀升:XDR InfiniBand 的目标是每个链路 800 Gb/s,路线图为 1.6 Tb/s。随着超以太网联盟设计出与 InfiniBand 相匹配的人工智能工作负载以太网,以及网内计算 (SHARP) 将集体数学卸载到交换机本身,竞争正在加剧。随着前沿模型的发展,GPU 到网络的集成将会更加紧密,光学互连可以降低功耗,并且结构可以扩展到包含数十万个加速器的集群。

现实世界的实施

在人工智能超级计算机中连接数千个 GPU,以便梯度数据在分布式训练期间以微秒的速度在节点之间移动

让一台服务器直接读取另一台服务器的内存 (RDMA) 以加速分布式文件系统和数据库,而无需 CPU 开销

通过 InfiniBand 运行 NCCL all-reduce 操作以跨 GPU 集群同步模型权重

使用 RoCE 将 RDMA 式低延迟传输引入现有以太网数据中心网络

实施模式

InfiniBand 和 RDMA 网络实践

在人工智能超级计算机中连接数千个 GPU,以便梯度数据在分布式训练期间以微秒的速度在节点之间移动。

在人工智能超级计算机中连接数千个 GPU,以便在分布式训练期间梯度数据以微秒的速度在节点之间移动。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力增益和错误成本时,通常会获得更好的结果。

InfiniBand 和 RDMA 网络实践

让一台服务器直接读取另一台服务器的内存 (RDMA),以加速分布式文件系统和数据库,而无需 CPU 开销。

让一台服务器直接读取另一台服务器的内存 (RDMA) 以加速分布式文件系统和数据库,而无需 CPU 开销 当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会获得更好的结果。

InfiniBand 和 RDMA 网络实践

通过 InfiniBand 运行 NCCL all-reduce 操作,以跨 GPU 集群同步模型权重。

通过 InfiniBand 运行 NCCL all-reduce 操作以同步 GPU 集群中的模型权重 团队在预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会获得更好的结果。

InfiniBand 和 RDMA 网络实践

使用 RoCE 将 RDMA 式低延迟传输引入现有以太网数据中心网络。

使用 RoCE 将 RDMA 式低延迟传输引入现有以太网数据中心网络 当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会获得更好的结果。

风险与防护栏

!

优化一项基准测试可以隐藏更广泛的系统弱点。

!

基础设施和维护成本常常被低估。

!

随着系统变得更加复杂,安全性和可观察性差距可能会扩大。

实施路线图

1

在实施之前定义延迟、质量和成本目标。

在实施之前定义延迟、质量和成本目标。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

在实际负载和数据条件下进行基准测试。

在实际负载和数据条件下进行基准测试。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

仪器监控错误、漂移和用户影响。

仪器监控错误、漂移和用户影响。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

在扩展之前准备回滚和事件响应路径。

在扩展之前准备回滚和事件响应路径。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索