语言人工智能指南

QLoRA 和 4 位微调

QLoRA 是一种技术，可让您通过以每个权重仅 4 位存储冻结模型来微调单个消费级 GPU 上的大规模语言模型。

概述

QLoRA 是一种技术，可让您通过以每个权重仅 4 位存储冻结模型来微调单个消费级 GPU 上的大规模语言模型。它使得在硬件上定制 65B 参数模型成为可能，而以前只能处理该尺寸的一小部分模型。

QLoRA 和 4 位微调是用于大规模读取、生成、分类和转换文本和语音的语言 AI 堆栈的一部分。

深入探讨

通常，微调大型模型意味着以 16 位精度加载每个权重并更新所有权重，这需要大量内存。 QLoRA 结合了两种想法。首先，它冻结预训练模型并将其量化为 4 位，将内存削减大约四倍。其次，它使用 LoRA：它不是更新巨大的权重矩阵，而是在它们旁边注入微小的可训练低阶适配器矩阵，因此只有几百万个参数得到更新。 4 位底座保持固定，而梯度仅流过小适配器。 QLoRA 由 Dettmers 及其同事于 2023 年推出，表明在一个 48GB GPU 上微调 65B 模型可以与完整 16 位微调的质量相媲美。

技术洞察

QLoRA 引入了三个技巧。 NF4（4 位 NormalFloat）是一种针对神经权重的钟形曲线分布进行优化的数据类型，比普通 int4 具有更好的准确性。双量化会压缩量化常数本身，从而节省额外的内存。分页优化器使用 GPU-CPU 统一内存来吸收长序列期间的峰值，防止内存不足崩溃。在前向和后向传递过程中，4 位权重被反量化为 16 位，以便进行矩阵乘法，然后被丢弃。

掌握 QLoRA 和 4 位微调

QLoRA 是一种技术，可让您通过以每个权重仅 4 位存储冻结模型来微调单个消费级 GPU 上的大规模语言模型。它使得在硬件上定制 65B 参数模型成为可能，而以前只能处理该尺寸的一小部分模型。 QLoRA 和 4 位微调是用于大规模读取、生成、分类和转换文本和语音的语言 AI 堆栈的一部分。为了建立深入的理解，请将 QLoRA 和 4 位微调视为一种操作模型，而不是单个功能：定义所需的结果，澄清假设，并将系统可以可靠地执行的操作与仍需要专家判断的操作分开。

在实践中，使用 QLoRA 和 4 位微调的强大团队将提示、检索和审查循环设计为一个集成通信系统。他们记录明确的成功标准，根据实际数据和工作流程进行测试，并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

语言工作流程可以在不牺牲一致性的情况下更快地移动。与此同时，幻觉事实可以悄悄地进入报告、支持流程或研究成果。最具弹性的方法是将实验速度与治理规则结合起来：运行试点、捕获证据、发布决策日志，并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

语言工作流程可以在不牺牲一致性的情况下更快地移动。

语言工作流程可以在不牺牲一致性的情况下更快地移动。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

它扩展了跨语言和沟通方式的访问。

它扩展了跨语言和沟通方式的访问。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

团队可以花更多时间进行判断，而自动化则可以处理重复。

团队可以花更多时间进行判断，而自动化则可以处理重复。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

QLoRA 和 4 位微调的未来

4 位微调已成为标准做法，现在的研究正在朝着更低的精度方向发展，包括 2 位和 1 位（三进制）表示。 AWQ、GPTQ 和 HQQ 等较新的量化方案进一步提高了准确性，而 QA-LoRA 等技术的目标是即使在合并适配器后也能保持模型的量化。随着开放重量模型的发展，爱好者们可以期待工具能够在单个游戏 GPU 上微调 70B 以上的模型，从而成为常规的、民主化的定制。

现实世界的实施

一家初创公司在单个 48GB GPU 上微调 70B Llama 模型，以用自己的品牌声音构建客户支持助理，而无需租用服务器集群。

一名研究人员使用一台消费级 RTX 4090 一夜之间将开放模型调整为利基医疗问答数据集。

开发人员为不同的任务创建了数十个小型、可交换的 LoRA 适配器，所有适配器都共享内存中加载的一个 4 位基本模型。

业余爱好者使用免费的 Colab 级硬件对个人聊天日志上的模型进行微调，以模仿特定的写作风格。

实施模式

QLoRA 和 4 位微调实践

一家初创公司在单个 48GB GPU 上微调 70B Llama 模型，以用自己的品牌声音构建客户支持助理，而无需租用服务器集群。

一家初创公司在单个 48GB GPU 上微调 70B Llama 模型，以用自己的品牌声音构建客户支持助理，而无需租用服务器集群。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时，通常会获得更好的结果。

QLoRA 和 4 位微调实践

一名研究人员使用一台消费级 RTX 4090 一夜之间将开放模型调整为利基医疗问答数据集。

拥有一台消费者 RTX 4090 的研究人员在一夜之间将开放模型调整为利基医疗问答数据集。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时，通常会获得更好的结果。

QLoRA 和 4 位微调实践

开发人员为不同的任务创建了数十个小型、可交换的 LoRA 适配器，所有适配器都共享内存中加载的一个 4 位基本模型。

开发人员为不同的任务创建数十个小型、可交换的 LoRA 适配器，所有适配器都共享加载在内存中的一个 4 位基本模型。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时，通常会获得更好的结果。

QLoRA 和 4 位微调实践

业余爱好者使用免费的 Colab 级硬件对个人聊天日志上的模型进行微调，以模仿特定的写作风格。

业余爱好者使用免费的 Colab 级硬件对个人聊天日志上的模型进行微调，以模仿特定的写作风格。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时，通常会获得更好的结果。

风险与防护栏

幻觉的事实可以悄悄地进入报告、支持流程或研究成果。

及时的敏感性可能会在类似的请求中产生不一致的结果。

如果访问控制薄弱，敏感文本数据可能会暴露。

实施路线图

在推出之前定义输出格式、语气和质量标准。

在推出之前定义输出格式、语气和质量标准。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

当准确性很重要时，请使用可信来源进行地面响应。

当准确性很重要时，请使用可信来源进行地面响应。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

为高风险输出保留人工审查检查点。

为高风险输出保留人工审查检查点。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

跟踪故障模式并定期重新训练提示或工作流程。

跟踪故障模式并定期重新训练提示或工作流程。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

不断探索

ChatGPT 和法学硕士

了解现代语言模型如何生成和推理。

阅读指南

自然语言处理基础知识

了解这些工具背后的语言处理基础知识。

阅读指南