技术指南

混合模型和稀疏模型

Mixtral 是 Mistral AI 的开放式专家混合模型,能够以小模型速度提供大模型质量。

概述

Mixtral 是 Mistral AI 的开放式专家混合模型,能够以小模型速度提供大模型质量。像它这样的稀疏模型只激活每个令牌的一小部分参数,在不牺牲能力的情况下减少计算量。

混合和稀疏模型是一个技术构建块,会大规模影响模型质量、基础设施成本、延迟和可靠性。

深入探讨

Mistral AI 于 2023 年末发布的 Mixtral 8x7B 推广了开放模型中的稀疏专家混合 (MoE) 方法。它每层包含八个独立的“专家”前馈网络,总参数约为 470 亿个,但轻量级路由器仅为每个令牌选择两名专家。因此,每个令牌只有大约 130 亿个参数处于活动状态,因此推理运行速度与 13B 密集模型一样快,同时达到与更大模型相当的质量。 Mixtral 在许多基准测试中匹配或击败了 GPT-3.5 和 Llama 2 70B,同时服务速度更快、成本更低。 Mistral 后来发布了 Mixtral 8x22B。该模型在 Apache 2.0 下公开许可,促进了开源社区的快速采用和微调。

技术洞察

在稀疏 MoE 层中,密集前馈块被 N 个专家网络加上一个小型门控网络(路由器)取代。对于每个令牌,路由器计算分数并选择前 k 个专家(Mixtral 中的前 2 个),仅通过这些专家路由令牌。它们的输出被加权并求和。由于大多数专家在每个令牌上都处于空闲状态,因此该模型在内存中保存了许多参数,但计算量却少得多。权衡:所有专家都必须加载到 VRAM 中,即使只有一些专家运行。

掌握混合和稀疏模型

Mixtral 是 Mistral AI 的开放式专家混合模型,能够以小模型速度提供大模型质量。像它这样的稀疏模型只激活每个令牌的一小部分参数,在不牺牲能力的情况下减少计算量。混合和稀疏模型是一个技术构建块,会大规模影响模型质量、基础设施成本、延迟和可靠性。为了建立深入的理解,请将混合模型和稀疏模型视为一种操作模型,而不是单一功能:定义所需的结果,澄清假设,并将系统可以可靠地执行的操作与仍需要专家判断的操作分开。

在实践中,使用混合模型和稀疏模型的强大团队根据可靠性和成本优化架构、数据和基础设施选择。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

多年来,架构决策决定着性能和运营成本。与此同时,优化一个基准测试可以隐藏更广泛的系统弱点。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

多年来,架构决策决定着性能和运营成本。

多年来,架构决策决定着性能和运营成本。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

技术教育帮助团队选择正确的堆栈,而不仅仅是最新的堆栈。

技术教育帮助团队选择正确的堆栈,而不仅仅是最新的堆栈。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

更好的工程选择可以减少生产中的可靠性事故。

更好的工程选择可以减少生产中的可靠性事故。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

混合模型和稀疏模型的未来

稀疏 MoE 现在是前沿人工智能的核心。预计会有更多开放的 MoE 版本、与许多小型专家一起进行更细粒度的路由,以及可进一步提高效率的共享或混合专家设计。随着模型扩展到数万亿个总参数,稀疏性是保持推理负担得起的主要杠杆。研究正在解决 MoE 的弱点、专家之间的负载平衡、内存开销和训练稳定性,而硬件和服务堆栈越来越多地专门针对专家路由进行优化。

现实世界的实施

以更小的密集模型的成本和速度提供高质量的聊天机器人

自托管商业产品的 Apache-2.0 许可模型,无需使用费

微调 Mixtral 上的个人行为以进行编码、摘要或多语言任务

在单个多 GPU 服务器上运行快速推理,其中 70B 密集模型会太慢

实施模式

实践中的混合模型和稀疏模型

以小得多的密集模型的成本和速度提供高质量的聊天机器人。

以更小的密集模型的成本和速度提供高质量的聊天机器人当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

实践中的混合模型和稀疏模型

自托管商业产品的 Apache-2.0 许可模型,无需使用费。

为商业产品自行托管 Apache-2.0 许可模型,无需支付使用费 当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会获得更好的结果。

实践中的混合模型和稀疏模型

微调 Mixtral 上的个人行为以进行编码、摘要或多语言任务。

在 Mixtral 上微调个人行为以进行编码、摘要或多语言任务 当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会获得更好的结果。

实践中的混合模型和稀疏模型

在单个多 GPU 服务器上运行快速推理,其中 70B 密集模型会太慢。

在单个多 GPU 服务器上运行快速推理,其中 70B 密集模型会太慢。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

风险与防护栏

!

优化一项基准测试可以隐藏更广泛的系统弱点。

!

基础设施和维护成本常常被低估。

!

随着系统变得更加复杂,安全性和可观察性差距可能会扩大。

实施路线图

1

在实施之前定义延迟、质量和成本目标。

在实施之前定义延迟、质量和成本目标。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

在实际负载和数据条件下进行基准测试。

在实际负载和数据条件下进行基准测试。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

仪器监控错误、漂移和用户影响。

仪器监控错误、漂移和用户影响。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

在扩展之前准备回滚和事件响应路径。

在扩展之前准备回滚和事件响应路径。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索