语言人工智能指南

龙猫缩放法则

DeepMind 于 2022 年推出的 Chinchilla 缩放法则表明,大多数大型语言模型都严重缺乏训练:对于固定的计算预算,您应该大致以相等的比例缩放模型大小和训练数据。

概述

DeepMind 于 2022 年推出的 Chinchilla 缩放法则表明,大多数大型语言模型都严重缺乏训练:对于固定的计算预算,您应该大致以相等的比例缩放模型大小和训练数据。这很重要,因为它重新定义了“最佳”模型大小的含义,并重塑了实验室花费计算的方式。

Chinchilla Scaling Laws 是语言 AI ​​堆栈的一部分,用于大规模读取、生成、分类和转换文本和语音。

深入探讨

在 Chinchilla 之前,趋势是构建更大的模型(如 175B 参数 GPT-3),同时使用相对少量的数据进行训练。 DeepMind 训练了 400 多个跨多种规模和数据预算的模型,然后拟合曲线,在固定计算 (FLOP) 预算下将损失预测为参数和令牌的函数。他们的发现:参数和训练标记应该一起缩放,大约是 1 比 1 的比例,这意味着每个参数大约有 20 个训练数据标记。为了证明这一点,他们在 1.4 万亿个代币上训练了 Chinchilla,这是一个 70B 参数模型,尽管使用相同的计算,但它的性能优于更大的 280B 参数 Gopher,因为它接受了更多数据的训练。

技术洞察

这些定律来自拟合参数损失函数 L(N, D),其中 N 是参数,D 是标记,包括不可约损失、模型大小和数据大小项。在计算约束下最小化损失(计算大致与 N 乘以 D 成正比)会产生这样的结果:最优 N 和 D 都随着具有相似指数的计算幂而增长,因此计算最优比率保持在每个参数 20 个令牌附近。

掌握龙猫缩放法则

DeepMind 于 2022 年推出的 Chinchilla 缩放法则表明,大多数大型语言模型都严重缺乏训练:对于固定的计算预算,您应该大致以相等的比例缩放模型大小和训练数据。这很重要,因为它重新定义了“最佳”模型大小的含义,并重塑了实验室花费计算的方式。 Chinchilla Scaling Laws 是语言 AI ​​堆栈的一部分,用于大规模读取、生成、分类和转换文本和语音。为了建立深入的理解,请将 Chinchilla Scaling Laws 视为一种操作模型,而不是单一功能:定义期望的结果,澄清假设,并将系统可以可靠地执行的操作与仍需要专家判断的操作分开。

在实践中,强大的团队使用 Chinchilla Scaling Laws 将提示、检索和审查循环设计为一个集成的通信系统。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

语言工作流程可以在不牺牲一致性的情况下更快地移动。与此同时,幻觉事实可以悄悄地进入报告、支持流程或研究成果。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

语言工作流程可以在不牺牲一致性的情况下更快地移动。

语言工作流程可以在不牺牲一致性的情况下更快地移动。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

它扩展了跨语言和沟通方式的访问。

它扩展了跨语言和沟通方式的访问。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

团队可以花更多时间进行判断,而自动化则可以处理重复。

团队可以花更多时间进行判断,而自动化则可以处理重复。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

龙猫缩放法则的未来

Chinchilla 将这个领域从追逐参数计数转向为模型提供更高质量的数据,而现代模型的训练通常远远超过“计算最佳”点,以使推理成本更低。随着高质量的网络文本变得稀缺,人们的注意力开始转向数据管理、合成数据、多纪元和多模式数据,以保持规模化。核心教训是:数据和参数必须平衡,原始大小不再是目标。

现实世界的实施

DeepMind 的 70B 参数 Chinchilla 通过使用更多数据进行训练,在使用同等计算的基准测试中击败了 280B Gopher

指导团队在规划从头开始的模型时为每个参数预算大约 20 个训练令牌

证明 LLaMA 等更小、数据丰富的模型在推理时运行成本更低

估计计划的模型是否“训练不足”,并且从额外数据中获得的收益比从额外参数中获得的收益更多

实施模式

实践中的龙猫缩放法则

DeepMind 的 70B 参数 Chinchilla 通过使用更多数据进行训练,在使用同等计算的基准测试中击败了 280B Gopher。

DeepMind 的 70B 参数 Chinchilla 在使用同等计算的基准测试中击败了 280B Gopher,通过对更多数据进行训练,当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

实践中的龙猫缩放法则

指导团队在规划从头开始的模型时为每个参数预算大约 20 个训练令牌。

在规划从头开始的模型时,指导团队为每个参数预算大约 20 个训练令牌。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

实践中的龙猫缩放法则

证明 LLaMA 等较小、数据丰富的模型在推理时运行成本更低。

证明像 LLaMA 这样的小型、数据丰富的模型在推理时运行成本更低。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会获得更好的结果。

实践中的龙猫缩放法则

估计计划的模型是否“训练不足”,并且从额外的数据而不是额外的参数中获益更多。

估计计划的模型是否“训练不足”,以及从额外的数据中获得的收益是否比从额外的参数中获得的收益更多当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

风险与防护栏

!

幻觉的事实可以悄悄地进入报告、支持流程或研究成果。

!

及时的敏感性可能会在类似的请求中产生不一致的结果。

!

如果访问控制薄弱,敏感文本数据可能会暴露。

实施路线图

1

在推出之前定义输出格式、语气和质量标准。

在推出之前定义输出格式、语气和质量标准。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

当准确性很重要时,请使用可信来源进行地面响应。

当准确性很重要时,请使用可信来源进行地面响应。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

为高风险输出保留人工审查检查点。

为高风险输出保留人工审查检查点。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

跟踪故障模式并定期重新训练提示或工作流程。

跟踪故障模式并定期重新训练提示或工作流程。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索