概述
最大边际相关性 (MMR) 是一种重新排名方法,可平衡结果的相关性和与已选择结果的差异程度。这很重要,因为纯粹的相关性排名通常会返回近似重复的段落,从而浪费 RAG 上下文窗口中的空间。
最大边际相关性是语言人工智能堆栈的一部分,用于大规模读取、生成、分类和转换文本和语音。
深入探讨
当搜索系统纯粹根据与查询的相关性对文档进行评分时,最上面的结果通常是多余的——五个段落都说同样的事情。卡博内尔和戈尔茨坦于 1998 年推出的 MMR 通过一次选择一个结果来解决这个问题。在每一步中,它都会选择使加权混合最大化的候选者:lambda乘以与查询的相关性,减去(1减lambda)乘以与已选择的任何内容的最大相似度。接近 1 的 lambda 有利于纯粹的相关性;接近 0 有利于多样性。在检索增强生成中,MMR 很受欢迎,用于获取不同的块集,因此语言模型会看到互补的证据,而不是重复相同的事实,从而在不扩大上下文的情况下提高覆盖范围。
技术洞察
MMR 是一种贪婪的迭代算法。相关性和文档间相似度通常计算为嵌入向量之间的余弦相似度。评分公式为:MMR = argmax 超过 [ lambda * sim(doc, query) - (1 - lambda) * max sim(doc, selected) ] 的剩余文档。因为它每轮都会根据不断增长的选定集重新评估,所以它是顺序相关的,并且从 n 个候选者中选择 k 个选项,以大约 O(k*n) 的相似性比较运行。
掌握最大边际相关性
最大边际相关性 (MMR) 是一种重新排名方法,可平衡结果的相关性和与已选择结果的差异程度。这很重要,因为纯粹的相关性排名通常会返回近似重复的段落,从而浪费 RAG 上下文窗口中的空间。最大边际相关性是语言人工智能堆栈的一部分,用于大规模读取、生成、分类和转换文本和语音。为了建立深入的理解,请将最大边际相关性视为一种操作模型,而不是单个功能:定义期望的结果,澄清假设,并将系统可以可靠地执行的操作与仍需要专家判断的操作分开。
在实践中,强大的团队使用最大边际相关性将提示、检索和审查循环设计为一个集成的通信系统。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。
语言工作流程可以在不牺牲一致性的情况下更快地移动。与此同时,幻觉事实可以悄悄地进入报告、支持流程或研究成果。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。
战略影响
语言工作流程可以在不牺牲一致性的情况下更快地移动。
语言工作流程可以在不牺牲一致性的情况下更快地移动。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。
它扩展了跨语言和沟通方式的访问。
它扩展了跨语言和沟通方式的访问。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。
团队可以花更多时间进行判断,而自动化则可以处理重复。
团队可以花更多时间进行判断,而自动化则可以处理重复。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。
现实世界的实施
RAG 聊天机器人使用 MMR 检索,因此其前 5 个块涵盖策略的不同方面,而不是同一段落的五个释义。
研究摘要工具应用 MMR 来挑选尽量减少重叠的段落,从而生成更广泛、更少重复的摘要。
新闻聚合商使用 MMR 对文章进行排名,以显示对同一事件的不同报道,而不是十家媒体重复同一个新闻报道。
LangChain 的向量存储检索器使用 fetch_k 和 lambda_mult 公开 search_type='mmr' 以使返回的文档多样化。
实施模式
实践中的最大边际相关性
RAG 聊天机器人使用 MMR 检索,因此其前 5 个块涵盖策略的不同方面,而不是同一段落的五个释义。
RAG 聊天机器人使用 MMR 检索,因此它的前 5 个块涵盖了策略的不同方面,而不是同一段落的五个释义。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。
实践中的最大边际相关性
研究摘要工具应用 MMR 来挑选尽量减少重叠的段落,从而生成更广泛、更少重复的摘要。
研究摘要工具应用 MMR 来挑选尽量减少重叠的段落,生成更广泛、更少重复的摘要。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力增益和错误成本时,通常会获得更好的结果。
实践中的最大边际相关性
新闻聚合商使用 MMR 对文章进行排名,以显示对同一事件的不同报道,而不是十家媒体重复同一个新闻报道。
新闻聚合器使用 MMR 对文章进行排名,以显示对同一事件的不同报道,而不是十个媒体重复一篇报道。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会获得更好的结果。
实践中的最大边际相关性
LangChain 的向量存储检索器使用 fetch_k 和 lambda_mult 公开 search_type='mmr' 以使返回的文档多样化。
LangChain 的矢量存储检索器使用 fetch_k 和 lambda_mult 公开 search_type='mmr' 以使返回的文档多样化。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力增益和错误成本时,通常会获得更好的结果。
风险与防护栏
幻觉的事实可以悄悄地进入报告、支持流程或研究成果。
及时的敏感性可能会在类似的请求中产生不一致的结果。
如果访问控制薄弱,敏感文本数据可能会暴露。
实施路线图
在推出之前定义输出格式、语气和质量标准。
在推出之前定义输出格式、语气和质量标准。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。
当准确性很重要时,请使用可信来源进行地面响应。
当准确性很重要时,请使用可信来源进行地面响应。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。
为高风险输出保留人工审查检查点。
为高风险输出保留人工审查检查点。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。
跟踪故障模式并定期重新训练提示或工作流程。
跟踪故障模式并定期重新训练提示或工作流程。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。