技术指南

高带宽内存

高带宽内存 (HBM) 是放置在 GPU 旁边的堆叠内存,其传输数据的速度比普通 RAM 快得多。

概述

高带宽内存 (HBM) 是放置在 GPU 旁边的堆叠内存,其传输数据的速度比普通 RAM 快得多。它是保持人工智能加速器运行的原因,防止强大的计算核心在等待模型权重和数据时闲置。

高带宽内存是一个技术构建块,会大规模影响模型质量、基础设施成本、延迟和可靠性。

深入探讨

HBM 解决了一个基本瓶颈:现代人工智能芯片每秒可以执行数万亿次操作,但前提是数据到达得足够快。标准 GDDR 内存通过相对较窄的总线进行连接,而 HBM 垂直堆叠多个 DRAM 芯片,并通过数千条称为硅通孔 (TSV) 的微小垂直导线将它们连接起来。这些堆栈位于距离 GPU 几毫米的硅中介层上,提供了极宽的数据路径,可以同时处理数千位而不是数百位。结果是以每秒 TB 为单位测量的带宽。从 HBM2 发展到 HBM2e、HBM3 和 HBM3e,每一代都提高了容量和速度。对于权重必须不断传输的大型语言模型,HBM 容量和带宽通常比原始计算更重要。

技术洞察

HBM 通过极端并行性而不是更高的时钟速率来实现其速度。通过堆叠 DRAM 芯片并将它们与数千个 TSV 连接起来,它公开了一个非常宽的接口(每个堆栈 1024 位及以上),因此可以同时移动如此多的字节。将堆栈放置在 GPU 旁边的共享中介层上可以缩短接线,从而降低每位功耗和延迟。 NVIDIA H100 或 H200 等单一加速器可与多个 HBM 堆栈配对,以达到每秒数 TB 的总内存带宽。

掌握高带宽内存

高带宽内存 (HBM) 是放置在 GPU 旁边的堆叠内存,其传输数据的速度比普通 RAM 快得多。它是保持人工智能加速器运行的原因,防止强大的计算核心在等待模型权重和数据时闲置。高带宽内存是一个技术构建块,会大规模影响模型质量、基础设施成本、延迟和可靠性。为了建立深入的理解,请将高带宽内存视为一种操作模型,而不是单一功能:定义所需的结果,澄清假设,并将系统可以可靠地执行的操作与仍需要专家判断的操作分开。

在实践中,使用高带宽内存的强大团队根据可靠性和成本优化架构、数据和基础设施选择。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

多年来,架构决策决定着性能和运营成本。与此同时,优化一个基准测试可以隐藏更广泛的系统弱点。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

多年来,架构决策决定着性能和运营成本。

多年来,架构决策决定着性能和运营成本。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

技术教育帮助团队选择正确的堆栈,而不仅仅是最新的堆栈。

技术教育帮助团队选择正确的堆栈,而不仅仅是最新的堆栈。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

更好的工程选择可以减少生产中的可靠性事故。

更好的工程选择可以减少生产中的可靠性事故。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

高带宽内存的未来

内存带宽现在是 AI 的主要限制,因此 HBM 正在快速发展。 HBM3e 正在旗舰加速器中出货,HBM4 即将推出,承诺更宽的接口、更高的堆栈以及每个封装的更大容量。预计存储器和逻辑之间将进行更紧密的协同设计,可能是定制芯片和近存储器处理,以及 SK 海力士、三星和美光等供应商之间的激烈竞争。随着模型的增长,让更多的数据更接近计算、更快、更低的能耗,仍然是人工智能硬件进步的核心。

现实世界的实施

将大型语言模型的数十或数百 GB 的权重保存在靠近 GPU 的位置,以便可以在每个推理步骤中对它们进行流式传输。

使 NVIDIA H100 和 H200 数据中心 GPU 能够达到每秒数 TB 的内存带宽进行训练。

为 AI 训练集群提供支持,其中许多 GPU 都依赖 HBM 来避免矩阵运算之间的停滞。

支持必须将巨大的激活张量快速移入和移出内存的高分辨率生成图像和视频模型。

实施模式

高带宽内存实践

将大型语言模型的数十或数百 GB 的权重保存在靠近 GPU 的位置,以便可以在每个推理步骤中对它们进行流式传输。

将大型语言模型的数十或数百 GB 的权重保留在靠近 GPU 的位置,以便可以在每个推理步骤中进行流式传输。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力增益和错误成本时,通常会获得更好的结果。

高带宽内存实践

使 NVIDIA H100 和 H200 数据中心 GPU 能够达到每秒数 TB 的内存带宽进行训练。

使 NVIDIA H100 和 H200 数据中心 GPU 能够达到每秒数 TB 的内存带宽进行训练 当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会获得更好的结果。

高带宽内存实践

为 AI 训练集群提供支持,其中许多 GPU 都依赖 HBM 来避免矩阵运算之间的停滞。

为人工智能训练集群提供支持,其中许多 GPU 都依赖 HBM 来避免矩阵运算之间的停滞。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力增益和错误成本时,通常会获得更好的结果。

高带宽内存实践

支持必须将巨大的激活张量快速移入和移出内存的高分辨率生成图像和视频模型。

支持必须将巨大的激活张量快速移入和移出内存的高分辨率生成图像和视频模型当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

风险与防护栏

!

优化一项基准测试可以隐藏更广泛的系统弱点。

!

基础设施和维护成本常常被低估。

!

随着系统变得更加复杂,安全性和可观察性差距可能会扩大。

实施路线图

1

在实施之前定义延迟、质量和成本目标。

在实施之前定义延迟、质量和成本目标。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

在实际负载和数据条件下进行基准测试。

在实际负载和数据条件下进行基准测试。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

仪器监控错误、漂移和用户影响。

仪器监控错误、漂移和用户影响。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

在扩展之前准备回滚和事件响应路径。

在扩展之前准备回滚和事件响应路径。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索