语言人工智能指南

混合代理聚合

混合代理 (MoA) 是一种技术,其中多个语言模型起草答案,然后聚合器模型将它们的最佳想法融合到一个改进的响应中。

概述

混合代理 (MoA) 是一种技术,其中多个语言模型起草答案,然后聚合器模型将它们的最佳想法融合到一个改进的响应中。它让开放模型团队可以与单个顶级模型竞争或击败。

混合代理聚合是语言人工智能堆栈的一部分,用于大规模读取、生成、分类和转换文本和语音。

深入探讨

Together AI 在 2024 年发表的一篇论文中介绍了 Mixture-of-Agents,它将多个 LLM 组织成多个层。在第一层中,几个“提议者”模型各自独立地回答提示。然后,它们的输出被连接并传递到下一层,模型再次响应,现在以所有先前的草稿为条件。经过一轮或多轮这样的回合后,最终的“聚合器”模型将所有内容综合为一个答案。作者称之为“法学硕士的协作性”的核心见解是,当向同行展示答案时,模型会产生更好的响应,即使是不完美的答案。据报道,在 AlpacaEval 2.0 基准测试中,完全由开源模型构建的 MoA 超过了 GPT-4 Omni 的分数,这表明多种、更便宜的模型的仔细聚合可以击败单一前沿系统。

技术洞察

MoA 与简单多数投票不同:聚合器不是选择一个答案,而是将所有候选答案作为上下文读取,并生成新的综合,融合优势并过滤错误。提议者之间的多样性会有所帮助,因此混合不同的模型系列很有价值。该结构是分层的,就像一个深层网络,其中每一层的“神经元”都是整个 LLM 调用。权衡是延迟和成本:每一层都会增加推理调用的数量,因此 MoA 需要花费更多的计算来提高质量。

掌握混合代理聚合

混合代理 (MoA) 是一种技术,其中多个语言模型起草答案,然后聚合器模型将它们的最佳想法融合到一个改进的响应中。它让开放模型团队可以与单个顶级模型竞争或击败。混合代理聚合是语言人工智能堆栈的一部分,用于大规模读取、生成、分类和转换文本和语音。为了建立深入的理解,请将混合代理聚合视为一种操作模型,而不是单一功能:定义所需的结果,澄清假设,并将系统可以可靠地完成的任务与仍需要专家判断的任务分开。

在实践中,使用代理混合聚合的强大团队将提示、检索和审查循环设计为一个集成的通信系统。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

语言工作流程可以在不牺牲一致性的情况下更快地移动。与此同时,幻觉事实可以悄悄地进入报告、支持流程或研究成果。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

语言工作流程可以在不牺牲一致性的情况下更快地移动。

语言工作流程可以在不牺牲一致性的情况下更快地移动。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

它扩展了跨语言和沟通方式的访问。

它扩展了跨语言和沟通方式的访问。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

团队可以花更多时间进行判断,而自动化则可以处理重复。

团队可以花更多时间进行判断,而自动化则可以处理重复。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

混合代理聚合的未来

随着推理成本的降低和编排框架的成熟,预计 MoA 式聚合将会得到普及。研究方向包括了解每个查询(路由)信任哪些提议者,通过并行运行提议者并尽早修剪弱提议者来减少延迟损失,以及将 MoA 与使用工具的代理相结合,以便聚合器不仅融合文本,还融合操作和检索到的证据。随着开放模型的激增,智能地集成它们成为一种越来越实用的途径,无需使用单一的巨型模型即可达到前沿质量。

现实世界的实施

结合三种不同的开放聊天模型作为提议者,然后使用强大的聚合器生成一份精美的客户支持回复。

仅使用开源模型提高 AlpacaEval 式基准测试中的指令遵循分数。

将多个模型的不同代码建议融合到一个更强大的函数实现中。

运行开放权重管道,该管道接近隐私敏感部署的前沿质量,其中数据无法离开公司的服务器。

实施模式

实践中的混合代理聚合

结合三种不同的开放聊天模型作为提议者,然后使用强大的聚合器生成一份精美的客户支持回复。

结合三种不同的开放聊天模型作为提议者,然后使用强大的聚合器生成一份完善的客户支持回复。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力增益和错误成本时,通常会获得更好的结果。

实践中的混合代理聚合

仅使用开源模型提高 AlpacaEval 式基准测试中的指令遵循分数。

仅使用开源模型提高 AlpacaEval 式基准上的指令遵循分数 当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力增益和错误成本时,通常会获得更好的结果。

实践中的混合代理聚合

将多个模型的不同代码建议融合到一个更强大的函数实现中。

将多个模型的不同代码建议融合到一个更强大的功能实现中 团队在预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力增益和错误成本时,通常会获得更好的结果。

实践中的混合代理聚合

运行开放权重管道,该管道接近隐私敏感部署的前沿质量,其中数据无法离开公司的服务器。

运行开放权重管道,以接近隐私敏感部署的前沿质量,其中数据无法离开公司的服务器。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

风险与防护栏

!

幻觉的事实可以悄悄地进入报告、支持流程或研究成果。

!

及时的敏感性可能会在类似的请求中产生不一致的结果。

!

如果访问控制薄弱,敏感文本数据可能会暴露。

实施路线图

1

在推出之前定义输出格式、语气和质量标准。

在推出之前定义输出格式、语气和质量标准。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

当准确性很重要时,请使用可信来源进行地面响应。

当准确性很重要时,请使用可信来源进行地面响应。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

为高风险输出保留人工审查检查点。

为高风险输出保留人工审查检查点。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

跟踪故障模式并定期重新训练提示或工作流程。

跟踪故障模式并定期重新训练提示或工作流程。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索