语言人工智能指南

LoRA 和参数高效调整

LoRA 允许您通过仅训练一小部分新权重（而不是全部数十亿）来定制巨大的预训练模型。

概述

LoRA 允许您通过仅训练一小部分新权重（而不是全部数十亿）来定制巨大的预训练模型。这一技巧使得在单个 GPU 上进行微调变得经济实惠，并让一个基本模型可以服务于数十个专门任务。

LoRA 和参数高效调优是语言 AI 堆栈的一部分，用于大规模读取、生成、分类和转换文本和语音。

深入探讨

完全微调会更新模型中的每个权重，对于数十亿参数的网络来说，每个新任务都需要巨大的内存和存储空间。 LoRA（低阶适应）采用了更智能的路线：它完全冻结原始权重，并在其旁边插入小型、可训练的“适配器”矩阵。关键的赌注是，专门化模型所需的改变是低秩的——它可以通过两个瘦矩阵来捕获，其乘积与大权重矩阵的形状相同，但需要学习的数字要少得多。通常您训练的参数低于 1%。结果是一个很小的适配器文件（有时只有几兆字节），您可以换入和换出。 QLoRA 更进一步，将冻结的基数量化为 4 位，让人们可以在消费硬件上微调大型模型。

技术洞察

对于权重矩阵 W，LoRA 将其更新表示为两个低秩矩阵 B 乘以 A 的乘积，其中 A 和 B 具有较小的内部维度 r（秩，通常为 8 或 16）。训练期间只学习 A 和 B； W 保持冻结状态。在推理时，适配器输出被添加到原始层的输出中，并且缩放因子（alpha）控制其影响。由于 B 乘 A 可以在训练后合并回 W，因此 LoRA 一旦融合到部署的模型中，就会增加零额外延迟。

掌握 LoRA 和参数高效调整

LoRA 允许您通过仅训练一小部分新权重（而不是全部数十亿）来定制巨大的预训练模型。这一技巧使得在单个 GPU 上进行微调变得经济实惠，并让一个基本模型可以服务于数十个专门任务。 LoRA 和参数高效调优是语言 AI 堆栈的一部分，用于大规模读取、生成、分类和转换文本和语音。为了建立深入的理解，请将 LoRA 和参数高效调整视为一种操作模型，而不是单一功能：定义所需的结果，澄清假设，并将系统可以可靠地执行的操作与仍需要专家判断的操作分开。

在实践中，使用 LoRA 和参数高效调整的强大团队将提示、检索和审查循环设计为一个集成通信系统。他们记录明确的成功标准，根据实际数据和工作流程进行测试，并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

语言工作流程可以在不牺牲一致性的情况下更快地移动。与此同时，幻觉事实可以悄悄地进入报告、支持流程或研究成果。最具弹性的方法是将实验速度与治理规则结合起来：运行试点、捕获证据、发布决策日志，并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

语言工作流程可以在不牺牲一致性的情况下更快地移动。

语言工作流程可以在不牺牲一致性的情况下更快地移动。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

它扩展了跨语言和沟通方式的访问。

它扩展了跨语言和沟通方式的访问。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

团队可以花更多时间进行判断，而自动化则可以处理重复。

团队可以花更多时间进行判断，而自动化则可以处理重复。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

LoRA 和参数高效调整的未来

参数高效调整已成为组织适应开放模型的默认方式，并且这种方式将会深化。预计适配器生态系统将有数百个 LoRA 进行热插拔，甚至在一个共享基础之上组成，以及根据请求选择正确适配器的路由系统。 QLoRA 风格的量化调整不断扩大爱好者可以在家定制的模型的尺寸。研究仍在继续，包括更好的初始化、动态排名选择以及同时有效地服务多个适配器——使一个前沿基础模型成为无数廉价、专业变体的基础。

现实世界的实施

使用单个 GPU 而不是完整集群，根据医院的临床记录对 Llama 等开放模型进行微调

交付 10 MB LoRA 适配器，将普通聊天机器人转变为法律文档助手，而无需重新分发整个模型

使用 QLoRA 通过将冻结的基本权重量化为 4 位来微调消费类显卡上的大型模型

为每个客户托管一个基本模型并热插拔不同的 LoRA 适配器，以低廉的成本为许多专业助理提供服务

实施模式

LoRA 和参数高效调整实践

使用单个 GPU 而不是完整集群，根据医院的临床记录对 Llama 等开放模型进行微调。

使用单个 GPU 而不是完整集群对医院临床记录上的 Llama 等开放模型进行微调当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时，通常会获得更好的结果。

LoRA 和参数高效调整实践

交付 10 MB LoRA 适配器，可将普通聊天机器人转变为法律文档助手，而无需重新分发整个模型。

交付 10 MB LoRA 适配器，将通用聊天机器人转变为法律文档助手，而无需重新分发整个模型。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时，通常会获得更好的结果。

LoRA 和参数高效调整实践

使用 QLoRA 通过将冻结的基本权重量化为 4 位来微调消费类显卡上的大型模型。

使用 QLoRA 通过将冻结的基本权重量化为 4 位来微调消费类显卡上的大型模型。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时，通常会获得更好的结果。

LoRA 和参数高效调整实践

为每个客户托管一种基本模型并热插拔不同的 LoRA 适配器，从而以低廉的成本为许多专业助理提供服务。

为每个客户托管一个基本模型并热插拔不同的 LoRA 适配器，以低廉的成本为许多专业助理提供服务当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时，通常会获得更好的结果。

风险与防护栏

幻觉的事实可以悄悄地进入报告、支持流程或研究成果。

及时的敏感性可能会在类似的请求中产生不一致的结果。

如果访问控制薄弱，敏感文本数据可能会暴露。

实施路线图

在推出之前定义输出格式、语气和质量标准。

在推出之前定义输出格式、语气和质量标准。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

当准确性很重要时，请使用可信来源进行地面响应。

当准确性很重要时，请使用可信来源进行地面响应。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

为高风险输出保留人工审查检查点。

为高风险输出保留人工审查检查点。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

跟踪故障模式并定期重新训练提示或工作流程。

跟踪故障模式并定期重新训练提示或工作流程。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

不断探索

ChatGPT 和法学硕士

了解现代语言模型如何生成和推理。

阅读指南

自然语言处理基础知识

了解这些工具背后的语言处理基础知识。

阅读指南