技术指南

闪光注意

Flash Attention 是一种计算 Transformer 内部注意力步骤的巧妙方法，无需编写巨大的注意力矩阵来减慢内存速度。

概述

Flash Attention 是一种计算 Transformer 内部注意力步骤的巧妙方法，无需编写巨大的注意力矩阵来减慢内存速度。它使长上下文模型速度更快、内存效率更高，而无需改变其数学原理。

Flash Attention 是一个技术构建块，会大规模影响模型质量、基础设施成本、延迟和可靠性。

深入探讨

标准注意力将每个标记与其他每个标记进行比较，生成一个 N×N 分数矩阵，该矩阵随序列长度呈二次方增长。简单地说，该矩阵被写入 GPU 高带宽内存 (HBM) 并从其中读回，而真正的瓶颈是穿梭（而不是乘法）。 Tri Dao 及其同事于 2022 年推出的 Flash Attention 重新组织了计算，因此矩阵永远不会完全存储。它处理适合快速片上 SRAM 的小块中的查询、键和值，计算部分结果，并使用在线运行的 softmax 技巧将它们拼接在一起。输出在数学上与普通注意力相同，但使用线性存储器并且运行速度快几倍，尤其是在长序列上。

技术洞察

关键技巧是平铺加上在线 softmax。 Softmax 通常需要整行分数来计算其分母，但 Flash Attention 在流式传输每个图块时会保留运行最大值和运行总和，重新缩放早期的部分输出，以便最终结果准确。由于中间分数保留在 SRAM 中（比 HBM 快几个数量级），因此该算法具有 IO 感知能力：它最大限度地减少了内存读取和写入，而不是原始算术运算。

掌握闪光注意力

Flash Attention 是一种计算 Transformer 内部注意力步骤的巧妙方法，无需编写巨大的注意力矩阵来减慢内存速度。它使长上下文模型速度更快、内存效率更高，而无需改变其数学原理。 Flash Attention 是一个技术构建块，会大规模影响模型质量、基础设施成本、延迟和可靠性。为了建立深入的理解，请将 Flash Attention 视为一种操作模型，而不是单一功能：定义期望的结果，澄清假设，并将系统可以可靠地执行的操作与仍需要专家判断的操作分开。

在实践中，强大的团队使用 Flash Attention 根据可靠性和成本优化架构、数据和基础设施选择。他们记录明确的成功标准，根据实际数据和工作流程进行测试，并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

多年来，架构决策决定着性能和运营成本。与此同时，优化一个基准测试可以隐藏更广泛的系统弱点。最具弹性的方法是将实验速度与治理规则结合起来：运行试点、捕获证据、发布决策日志，并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

多年来，架构决策决定着性能和运营成本。

多年来，架构决策决定着性能和运营成本。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

技术教育帮助团队选择正确的堆栈，而不仅仅是最新的堆栈。

技术教育帮助团队选择正确的堆栈，而不仅仅是最新的堆栈。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

更好的工程选择可以减少生产中的可靠性事故。

更好的工程选择可以减少生产中的可靠性事故。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

Flash 注意力的未来

Flash Attention 已成为默认构建块，FlashAttention-2 和 FlashAttention-3 通过改进工作分区和利用低精度 FP8 路径，从 H100 等新型 GPU 中获得更多吞吐量。预计将继续与硬件进行协同设计，更紧密地集成到训练和推理框架中，以及针对稀疏、滑动窗口和超长上下文注意力进行调整的变体。随着上下文窗口扩展到数百万个令牌，像这样的 IO 感知内核对于保持内存和速度实用仍然至关重要。

现实世界的实施

以更低的内存成本训练大型语言模型，例如 Llama 和 GPT 类系统，具有更长的上下文窗口。

通过加快首次阅读长提示的预填充阶段，更快地为聊天助理提供服务。

通过在单个 GPU 上实现长序列注意力，启用可摄取整本书或代码库的文档分析工具。

为视觉和音频变压器提供动力，其中高分辨率输入创建非常长的令牌序列。

实施模式

Flash Attention 实践

以更低的内存成本训练大型语言模型，例如 Llama 和 GPT 类系统，具有更长的上下文窗口。

以更低的内存成本训练 Llama 和 GPT 类系统等大型语言模型，并使用更长的上下文窗口。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时，通常会获得更好的结果。

Flash Attention 实践

通过加快首次阅读长提示的预填充阶段，更快地为聊天助理提供服务。

通过加快预填充阶段（首先读取长提示）来更快地为聊天助理提供服务当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力提升和错误成本时，通常会获得更好的结果。

Flash Attention 实践

通过在单个 GPU 上实现长序列注意力，启用可摄取整本书或代码库的文档分析工具。

通过在单个 GPU 上实现长序列注意力，启用可摄取整本书或代码库的文档分析工具当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时，通常会获得更好的结果。

Flash Attention 实践

为视觉和音频变压器提供动力，其中高分辨率输入创建非常长的令牌序列。

为高分辨率输入创建很长令牌序列的视觉和音频 Transformer 提供动力当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力增益和错误成本时，通常会获得更好的结果。

风险与防护栏

优化一项基准测试可以隐藏更广泛的系统弱点。

基础设施和维护成本常常被低估。

随着系统变得更加复杂，安全性和可观察性差距可能会扩大。

实施路线图

在实施之前定义延迟、质量和成本目标。

在实施之前定义延迟、质量和成本目标。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

在实际负载和数据条件下进行基准测试。

在实际负载和数据条件下进行基准测试。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

仪器监控错误、漂移和用户影响。

仪器监控错误、漂移和用户影响。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

在扩展之前准备回滚和事件响应路径。

在扩展之前准备回滚和事件响应路径。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

不断探索

人工智能基准

在比较技术选项时正确使用评估。

阅读指南

强化学习

更深入地了解技术培训策略。

阅读指南