概述
模型合并将两个或多个经过训练的神经网络的权重合并为一个模型,无需任何重新训练或访问原始训练数据。这很重要,因为它可以让团队以低廉的成本融合专业技能,将昂贵的微调模型转变为可重复使用的构建块。
模型合并是一个技术构建块,会大规模影响模型质量、基础设施成本、延迟和可靠性。
深入探讨
模型合并融合了共享相同架构的多个模型的实际参数(权重)。最简单的方法是权重平均,只需取相应权重的平均值。更聪明的方法使用“任务向量”——微调模型与其基础之间的差异。添加任务向量会注入技能;减去它可以消除不需要的行为。 TIES-Merging 和 DARE 等技术会修剪和重新调整这些向量,以减少组合多个模型时的干扰。由于不需要梯度下降或数据,因此合并在笔记本电脑上只需几秒钟即可运行。问题是:它仅在模型从公共基础下降并位于权重空间的兼容区域时才起作用。
技术洞察
关键思想是微调沿着基本模型附近相对平坦的“损失盆地”移动权重。任务向量很简单(微调权重减去基本权重)。由于这些向量大致是线性的,并且在不同的任务中通常接近正交,因此您可以将多个向量添加在一起,并且组合模型保留每项技能。 TIES 和 DARE 首先修剪小的或冲突的权重增量以减少符号分歧,然后合并,防止一项任务覆盖另一项任务。
掌握模型合并
模型合并将两个或多个经过训练的神经网络的权重合并为一个模型,无需任何重新训练或访问原始训练数据。这很重要,因为它可以让团队以低廉的成本融合专业技能,将昂贵的微调模型转变为可重复使用的构建块。模型合并是一个技术构建块,会大规模影响模型质量、基础设施成本、延迟和可靠性。为了建立深入的理解,请将模型合并视为一种操作模型,而不是单个功能:定义期望的结果,澄清假设,并将系统可以可靠地执行的操作与仍需要专家判断的操作分开。
在实践中,强大的团队使用模型合并根据可靠性和成本优化架构、数据和基础设施选择。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。
多年来,架构决策决定着性能和运营成本。与此同时,优化一个基准测试可以隐藏更广泛的系统弱点。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。
战略影响
多年来,架构决策决定着性能和运营成本。
多年来,架构决策决定着性能和运营成本。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。
技术教育帮助团队选择正确的堆栈,而不仅仅是最新的堆栈。
技术教育帮助团队选择正确的堆栈,而不仅仅是最新的堆栈。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。
更好的工程选择可以减少生产中的可靠性事故。
更好的工程选择可以减少生产中的可靠性事故。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。
现实世界的实施
将编码调整模型与聊天调整模型混合在一起,使法学硕士既可以自然地编写代码又可以自然地交谈,而无需重新培训。
进化合并实验将日语模型与英语数学模型相结合,产生强大的日语数学求解器。
从模型的权重中减去“毒性”任务向量,以减少有害输出,而无需收集新的安全数据。
将多个经过不同书写风格训练的 LoRA 适配器合并为一个可以灵活切换语气的模型。
实施模式
模型合并实践
将编码调整模型与聊天调整模型混合在一起,使法学硕士既可以自然地编写代码又可以自然地交谈,而无需重新培训。
将编码调整的模型与聊天调整的模型混合在一起,这样一个法学硕士既可以自然地编写代码,又可以自然地进行对话,而无需重新培训任何一个团队,当他们预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。
模型合并实践
进化合并实验将日语模型与英语数学模型相结合,产生强大的日语数学求解器。
将日语模型与英语数学模型相结合以产生强大的日语数学求解器的进化合并实验当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。
模型合并实践
从模型的权重中减去“毒性”任务向量,以减少有害输出,而无需收集新的安全数据。
从模型的权重中减去“毒性”任务向量,以减少有害输出,而无需收集新的安全数据。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。
模型合并实践
将多个经过不同书写风格训练的 LoRA 适配器合并为一个可以灵活切换语气的模型。
将经过不同写作风格训练的多个 LoRA 适配器合并到一个可以灵活切换语气的模型中 团队在预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。
风险与防护栏
优化一项基准测试可以隐藏更广泛的系统弱点。
基础设施和维护成本常常被低估。
随着系统变得更加复杂,安全性和可观察性差距可能会扩大。
实施路线图
在实施之前定义延迟、质量和成本目标。
在实施之前定义延迟、质量和成本目标。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。
在实际负载和数据条件下进行基准测试。
在实际负载和数据条件下进行基准测试。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。
仪器监控错误、漂移和用户影响。
仪器监控错误、漂移和用户影响。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。
在扩展之前准备回滚和事件响应路径。
在扩展之前准备回滚和事件响应路径。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。