技术指南

SmoothQuant 和激活量化

SmoothQuant 是一种技术，可以将大型语言模型的权重和激活压缩为 8 位整数，而无需重新训练。

概述

SmoothQuant 是一种技术，可以将大型语言模型的权重和激活压缩为 8 位整数，而无需重新训练。这很重要，因为大模型中的激活包含通常会破坏低精度数学的极端异常值，而 SmoothQuant 可以驯服它们。

SmoothQuant 和激活量化是一个技术构建块，会大规模影响模型质量、基础设施成本、延迟和可靠性。

深入探讨

当您将模型从 16 位浮点数缩小到 8 位整数时，权重很容易压缩，但激活却很麻烦：某些通道携带的值比其他通道大 10 到 100 倍，并且强制它们进入粗略的整数网格会破坏准确性。 SmoothQuant，由Xiao等人介绍。在 2022 年，观察到权重是平滑且易于量化的，而激活是尖峰的。因此，它在数学上转移了难度：它将激活通道除以每个通道的比例，并将相应的权重乘以相同的比例。这两个操作取消，使模型输出保持不变，但现在两个张量都处于友好的范围内。结果是 W8A8（8 位权重和激活）推理，精度损失接近于零，加速速度提高了大约 2 倍，并节省了内存。

技术洞察

核心技巧是每通道平滑因子 s，计算公式为 s = max(|X|)^alpha / max(|W|)^(1-alpha)。激活按 1/s 缩放，权重按 s 缩放，因此矩阵乘积 XW 被保留。由于缩放被离线吸收到前一层的权重或融合操作中，因此它增加了零运行时间成本。 alpha 超参数（通常为 0.5）控制有多少异常值负担从激活转移到权重。

掌握 SmoothQuant 和激活量化

SmoothQuant 是一种技术，可以将大型语言模型的权重和激活压缩为 8 位整数，而无需重新训练。这很重要，因为大模型中的激活包含通常会破坏低精度数学的极端异常值，而 SmoothQuant 可以驯服它们。 SmoothQuant 和激活量化是一个技术构建块，会大规模影响模型质量、基础设施成本、延迟和可靠性。为了建立深入的理解，请将 SmoothQuant 和 Activation Quantization 视为一种操作模型，而不是单一功能：定义所需的结果，澄清假设，并将系统可以可靠地执行的操作与仍需要专家判断的操作分开。

在实践中，使用 SmoothQuant 和 Activation Quantization 的强大团队根据可靠性和成本优化架构、数据和基础设施选择。他们记录明确的成功标准，根据实际数据和工作流程进行测试，并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

多年来，架构决策决定着性能和运营成本。与此同时，优化一个基准测试可以隐藏更广泛的系统弱点。最具弹性的方法是将实验速度与治理规则结合起来：运行试点、捕获证据、发布决策日志，并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

多年来，架构决策决定着性能和运营成本。

多年来，架构决策决定着性能和运营成本。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

技术教育帮助团队选择正确的堆栈，而不仅仅是最新的堆栈。

技术教育帮助团队选择正确的堆栈，而不仅仅是最新的堆栈。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

更好的工程选择可以减少生产中的可靠性事故。

更好的工程选择可以减少生产中的可靠性事故。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

SmoothQuant 和激活量化的未来

SmoothQuant 确定激活异常值是可迁移的而不是不可避免的，并且该想法现在支持生产 INT8 和 FP8 服务。期望平滑与更细粒度的方案相结合，例如每组量化、学习缩放和 4 位激活研究（例如异常值感知方法）。随着 FP8 硬件（Hopper、Blackwell）的成熟，平滑式平衡将继续融入编译器和推理引擎管道中，因此量化几乎保持免费。

现实世界的实施

通过将内存和矩阵乘法成本减半，在 W8A8 上使用更少的 GPU 提供 70B 参数 LLM

在 NVIDIA Hopper/Blackwell 张量核心上启用 INT8 推理，原生加速 8 位整数数学

在成本受限的云端点上部署聊天模型，其中吞吐量加倍可直接削减每个令牌的费用

压缩 Transformer 编码器以实现设备上语音或翻译，其中 8 位内核运行得更快、更凉爽

实施模式

SmoothQuant 和激活量化的实践

通过将内存和矩阵乘法成本减半，在 W8A8 上使用更少的 GPU 提供 70B 参数 LLM。

通过将内存和矩阵乘法成本减半，在 W8A8 上以更少的 GPU 提供 70B 参数 LLM 服务当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时，通常会获得更好的结果。

SmoothQuant 和激活量化的实践

在 NVIDIA Hopper/Blackwell 张量核心上启用 INT8 推理，原生加速 8 位整数数学。

在原生加速 8 位整数数学的 NVIDIA Hopper/Blackwell 张量核心上启用 INT8 推理团队在预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时，通常会获得更好的结果。

SmoothQuant 和激活量化的实践

在成本受限的云端点上部署聊天模型，其中吞吐量加倍可以直接削减每个令牌的费用。

在成本受限的云端点上部署聊天模型，其中吞吐量加倍可以直接削减每个令牌的费用。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力增益和错误成本时，通常会获得更好的结果。

SmoothQuant 和激活量化的实践

压缩 Transformer 编码器以实现设备上的语音或翻译，其中 8 位内核运行得更快、更凉爽。

压缩用于设备上语音或翻译的变压器编码器，其中 8 位内核运行得更快、更酷当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时，通常会获得更好的结果。

风险与防护栏

优化一项基准测试可以隐藏更广泛的系统弱点。

基础设施和维护成本常常被低估。

随着系统变得更加复杂，安全性和可观察性差距可能会扩大。

实施路线图

在实施之前定义延迟、质量和成本目标。

在实施之前定义延迟、质量和成本目标。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

在实际负载和数据条件下进行基准测试。

在实际负载和数据条件下进行基准测试。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

仪器监控错误、漂移和用户影响。

仪器监控错误、漂移和用户影响。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

在扩展之前准备回滚和事件响应路径。

在扩展之前准备回滚和事件响应路径。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

不断探索

人工智能基准

在比较技术选项时正确使用评估。

阅读指南

强化学习

更深入地了解技术培训策略。

阅读指南