技术指南

RMSNorm 和预层标准化

RMSNorm 是一个轻量级归一化层,它通过均方根重新调整激活值,并且预层归一化将该步骤放置在每个子层之前而不是之后。

概述

RMSNorm 是一个轻量级归一化层,它通过均方根重新调整激活值,并且预层归一化将该步骤放置在每个子层之前而不是之后。它们一起使深层变形金刚无需热身技巧即可稳定训练。

RMSNorm 和预层标准化是一个技术构建块,会大规模影响模型质量、基础设施成本、延迟和可靠性。

深入探讨

Standard LayerNorm 减去平均值并除以特征向量的标准差,然后应用学习到的缩放和移位。张和 Sennrich 在 2019 年提出的 RMSNorm 完全放弃了均值中心化和偏差:它只是将每个向量除以其元素的均方根,然后乘以学习的每个特征增益。这消除了一项统计数据和多项操作,在标准层中将计算量减少了大约 10-50%,同时匹配了准确性。另外,“Pre-LN”放置(注意力/MLP 之前的范数,周围有干净的残差路径)在初始化时保持梯度幅度有界,因此像 GPT-3、LLaMA 和 PaLM 这样的模型在训练时无需进行原始 Post-LN 变压器所需的学习率预热黑客攻击。

技术洞察

对于维度 d 的向量 x,RMSNorm 计算 x_i * g_i / sqrt((1/d) * sum(x_j^2) + epsilon),其中 g 是学习的增益向量。没有均值减法,也没有偏差。由于 Pre-LN 块中的残差流绕过了归一化,因此恒等路径保持不变,并且梯度直接从输出流向输入,这就是非常深的堆栈收敛的原因。

掌握 RMSNorm 和预层标准化

RMSNorm 是一个轻量级归一化层,它通过均方根重新调整激活值,并且预层归一化将该步骤放置在每个子层之前而不是之后。它们一起使深层变形金刚无需热身技巧即可稳定训练。 RMSNorm 和预层标准化是一个技术构建块,会大规模影响模型质量、基础设施成本、延迟和可靠性。为了建立深入的理解,请将 RMSNorm 和预层归一化视为一种操作模型,而不是单个功能:定义所需的结果,澄清假设,并将系统可以可靠地执行的操作与仍需要专家判断的操作分开。

在实践中,强大的团队使用 RMSNorm 和 Pre-Layer Normalization 根据可靠性和成本优化架构、数据和基础设施选择。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

多年来,架构决策决定着性能和运营成本。与此同时,优化一个基准测试可以隐藏更广泛的系统弱点。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

多年来,架构决策决定着性能和运营成本。

多年来,架构决策决定着性能和运营成本。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

技术教育帮助团队选择正确的堆栈,而不仅仅是最新的堆栈。

技术教育帮助团队选择正确的堆栈,而不仅仅是最新的堆栈。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

更好的工程选择可以减少生产中的可靠性事故。

更好的工程选择可以减少生产中的可靠性事故。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

RMSNorm 和预层标准化的未来

RMSNorm 现在是大多数开放权重 LLM(LLaMA、Mistral、Qwen、Gemma)的默认值,因此预计它会保持标准状态。研究正在完善配方:QK-norm 将 RMSNorm 应用于注意力查询和控制 logit 增长的关键,一些实验室将前范数和后范数(“三明治”或“peri-LN”)结合起来,以实现万亿参数规模的额外稳定性。硬件内核不断融合操作以提高速度。

现实世界的实施

LLaMA、Mistral 和 Qwen 均用 RMSNorm 替换 LayerNorm,以减少每个令牌的推理延迟

Pre-LN 允许 GPT 式模型进行训练,无需 2017 年 Post-LN 变压器所需的学习率预热

QK 标准化在注意力查询和键上使用 RMSNorm 来阻止大型模型中的 logits 爆炸

移动和边缘变压器采用 RMSNorm,因为降低均值和偏差会减少内存流量

实施模式

RMSNorm 和预层归一化实践

LLaMA、Mistral 和 Qwen 都用 RMSNorm 替换 LayerNorm,以减少每个令牌的推理延迟。

LLaMA、Mistral 和 Qwen 都用 RMSNorm 取代了 LayerNorm,以减少每个令牌的推理延迟。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。

RMSNorm 和预层归一化实践

Pre-LN 允许 GPT 风格的模型进行训练,而无需 2017 年 Post-LN 变压器所需的学习率预热。

Pre-LN 允许 GPT 式模型在没有 2017 Post-LN 变压器所需的学习率预热的情况下进行训练。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

RMSNorm 和预层归一化实践

QK 标准化在注意力查询和键上使用 RMSNorm 来阻止大型模型中的 logits 爆炸。

QK 标准化在注意力查询和键上使用 RMSNorm 来阻止大型模型中的 logits 爆炸。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

RMSNorm 和预层归一化实践

移动和边缘变压器采用 RMSNorm,因为降低均值和偏差会减少内存流量。

移动和边缘变压器采用 RMSNorm,因为降低均值和偏差会减少内存流量。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

风险与防护栏

!

优化一项基准测试可以隐藏更广泛的系统弱点。

!

基础设施和维护成本常常被低估。

!

随着系统变得更加复杂,安全性和可观察性差距可能会扩大。

实施路线图

1

在实施之前定义延迟、质量和成本目标。

在实施之前定义延迟、质量和成本目标。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

在实际负载和数据条件下进行基准测试。

在实际负载和数据条件下进行基准测试。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

仪器监控错误、漂移和用户影响。

仪器监控错误、漂移和用户影响。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

在扩展之前准备回滚和事件响应路径。

在扩展之前准备回滚和事件响应路径。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索