技术指南

块稀疏和本机稀疏注意力

块稀疏和原生稀疏注意力让 Transformer 只关注长序列中最相关的块，而不是每个标记，从而大幅削减了标准注意力的二次成本。

概述

块稀疏和原生稀疏注意力让 Transformer 只关注长序列中最相关的块，而不是每个标记，从而大幅削减了标准注意力的二次成本。这就是高效的长上下文模型在真实硬件上实用的原因。

块稀疏和原生稀疏注意力是一个技术构建块，会大规模影响模型质量、基础设施成本、延迟和可靠性。

深入探讨

标准的自注意力将每个标记与其他每个标记进行比较，因此成本随着序列长度呈二次方增长，对于很长的文档来说变得令人望而却步。稀疏注意力将每个标记限制为其他标记的子集。块稀疏方法将序列划分为块，并仅针对选定的块对计算注意力，从而有效地映射到 GPU 张量核心。 DeepSeek 的原生稀疏注意力 (NSA) 更进一步：它是可端到端训练的且与硬件对齐，结合了三个分支、粗粒度令牌压缩、最重要块的细粒度选择以及本地上下文的滑动窗口。由于稀疏模式是在预训练期间学习的，而不是事后附加的，因此 NSA 在保持准确性的同时，在长序列上提供大幅加速。

技术洞察

NSA 通过三个并行路径处理键和值，然后将它们与学习门合并。压缩将令牌块聚合成摘要表示；选择分数块并仅保留排名靠前的块以引起充分关注；滑动窗口覆盖附近的标记。块级操作与 GPU 内存访问和张量核心吞吐量保持一致，因此理论上的 FLOP 节省转化为训练和推理过程中的实际挂钟加速，特别是对于内存限制的解码步骤。

掌握块稀疏和本机稀疏注意力

块稀疏和原生稀疏注意力让 Transformer 只关注长序列中最相关的块，而不是每个标记，从而大幅削减了标准注意力的二次成本。这就是高效的长上下文模型在真实硬件上实用的原因。块稀疏和原生稀疏注意力是一个技术构建块，会大规模影响模型质量、基础设施成本、延迟和可靠性。为了建立深入的理解，请将块稀疏和本机稀疏注意力视为一种操作模型，而不是单个功能：定义期望的结果，澄清假设，并将系统可以可靠地完成的任务与仍需要专家判断的任务分开。

在实践中，强大的团队使用块稀疏和本机稀疏注意力来根据可靠性和成本优化架构、数据和基础设施选择。他们记录明确的成功标准，根据实际数据和工作流程进行测试，并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

多年来，架构决策决定着性能和运营成本。与此同时，优化一个基准测试可以隐藏更广泛的系统弱点。最具弹性的方法是将实验速度与治理规则结合起来：运行试点、捕获证据、发布决策日志，并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

多年来，架构决策决定着性能和运营成本。

多年来，架构决策决定着性能和运营成本。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

技术教育帮助团队选择正确的堆栈，而不仅仅是最新的堆栈。

技术教育帮助团队选择正确的堆栈，而不仅仅是最新的堆栈。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

更好的工程选择可以减少生产中的可靠性事故。

更好的工程选择可以减少生产中的可靠性事故。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

块稀疏和本机稀疏注意力的未来

可训练的、硬件感知的稀疏性正在成为在不增加成本的情况下获得百万代币上下文的途径。预计稀疏注意力将与内核和加速器共同设计，与线性注意力和状态空间思想相结合，并在前沿长上下文和推理模型中采用。随着模式变得可学习和动态，模型将自适应地为每个查询分配注意力预算，基准将越来越多地衡量长序列的解码吞吐量，而不仅仅是原始质量。

现实世界的实施

在整个代码库或长期法律合同上运行模型，其中的全部注意力会耗尽 GPU 内存。

DeepSeek 的 NSA 加速了预训练和长上下文推理，同时匹配或超越全注意力准确度。

通过关注压缩块摘要和本地相关段落来总结书本长度的文档。

通过将每个令牌限制为排名最高的块，加速长上下文聊天助手的解码步骤受内存限制。

实施模式

块稀疏和本机稀疏注意力的实践

在整个代码库或长期法律合同上运行模型，其中的全部注意力会耗尽 GPU 内存。

在整个代码库或冗长的法律合同上运行模型，因为全神贯注会耗尽 GPU 内存。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时，通常会得到更好的结果。

块稀疏和本机稀疏注意力的实践

DeepSeek 的 NSA 加速了预训练和长上下文推理，同时匹配或超越全注意力准确度。

DeepSeek 的 NSA 加速预训练和长上下文推理，同时匹配或超越全注意力准确性。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时，通常会获得更好的结果。

块稀疏和本机稀疏注意力的实践

通过关注压缩块摘要和本地相关段落来总结书本长度的文档。

通过关注压缩块摘要和本地相关段落来总结书本长度的文档当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力增益和错误成本时，通常会得到更好的结果。

块稀疏和本机稀疏注意力的实践

通过将每个令牌限制为排名最高的块，加速长上下文聊天助手的解码步骤受内存限制。

通过将每个令牌限制为排名靠前的块，加速长上下文聊天助手的解码步骤受内存限制。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时，通常会获得更好的结果。

风险与防护栏

优化一项基准测试可以隐藏更广泛的系统弱点。

基础设施和维护成本常常被低估。

随着系统变得更加复杂，安全性和可观察性差距可能会扩大。

实施路线图

在实施之前定义延迟、质量和成本目标。

在实施之前定义延迟、质量和成本目标。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

在实际负载和数据条件下进行基准测试。

在实际负载和数据条件下进行基准测试。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

仪器监控错误、漂移和用户影响。

仪器监控错误、漂移和用户影响。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

在扩展之前准备回滚和事件响应路径。

在扩展之前准备回滚和事件响应路径。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

不断探索

人工智能基准

在比较技术选项时正确使用评估。

阅读指南

强化学习

更深入地了解技术培训策略。

阅读指南