概述
思想树让模型可以并行探索许多推理路径,就像树的分支一样,而不是局限于一条思路。它可以展望未来,评估部分解决方案,并从死胡同中回溯。
思想树推理是一个技术构建块,会大规模影响模型质量、基础设施成本、延迟和可靠性。
深入探讨
由姚等人介绍。 2023年,思想树(ToT)概括了思想链提示。思想链产生推理步骤的单个线性序列,而 ToT 将问题构建为树:每个节点都是部分解决方案(一个“想法”),模型从每个节点生成几个候选的下一个想法。单独的评估步骤对每个分支的前景进行评分,而广度优先或深度优先搜索等搜索算法则决定扩展哪些分支以及修剪哪些分支。这让模型可以有意识地探索,向前看几步,并在路径看起来没有希望时回溯。 ToT 擅长击败贪婪的单路径推理的任务,最著名的是 24 人游戏,其中带有思维链的 GPT-4 解决了大约 4% 的谜题,但 ToT 将成功率提高到了大约 74%。
技术洞察
ToT 包含三个部分:提出候选下一步的思想生成器、状态评估器(通常是同一个法学硕士提示对部分解决方案进行评级或投票为“确定/可能/不可能”)以及导航树的搜索程序(BFS、DFS 或波束搜索)。由于该模型评估部分状态并修剪薄弱分支,因此它将计算分配给解决方案空间的有希望的区域,用额外的推理来换取对难题的更高的准确性。
掌握思想树推理
思想树让模型可以并行探索许多推理路径,就像树的分支一样,而不是局限于一条思路。它可以展望未来,评估部分解决方案,并从死胡同中回溯。思想树推理是一个技术构建块,会大规模影响模型质量、基础设施成本、延迟和可靠性。为了建立深入的理解,请将思想树推理视为一种操作模型,而不是单一功能:定义期望的结果,澄清假设,并将系统可以可靠地完成的任务与仍需要专家判断的任务分开。
在实践中,使用思想树推理的强大团队可以根据可靠性和成本来优化架构、数据和基础设施选择。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。
多年来,架构决策决定着性能和运营成本。与此同时,优化一个基准测试可以隐藏更广泛的系统弱点。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。
战略影响
多年来,架构决策决定着性能和运营成本。
多年来,架构决策决定着性能和运营成本。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。
技术教育帮助团队选择正确的堆栈,而不仅仅是最新的堆栈。
技术教育帮助团队选择正确的堆栈,而不仅仅是最新的堆栈。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。
更好的工程选择可以减少生产中的可靠性事故。
更好的工程选择可以减少生产中的可靠性事故。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。
现实世界的实施
通过分支首先组合两个数字并修剪不能达到 24 的算术路径来解决 24 游戏。
具有连贯计划的创意写作,模型起草几个情节大纲,对其进行评估,并在撰写散文之前扩展最强的内容。
像迷你填字游戏这样的约束性谜题,其中每个填充的单词都是一个想法,不兼容的分支将被放弃。
多步骤数学或规划问题,其中模型探索替代中间步骤并从违反约束的步骤中回溯。
实施模式
实践中的思想树推理
通过分支首先组合两个数字并修剪不能达到 24 的算术路径来解决 24 游戏。
通过首先组合两个数字的分支并修剪无法达到 24 的算术路径来解决 24 游戏。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。
实践中的思想树推理
具有连贯计划的创意写作,模型起草几个情节大纲,对其进行评估,并在撰写散文之前扩展最强的内容。
具有连贯计划的创意写作,模型起草几个情节大纲,对其进行评估,并在撰写散文之前扩展最强的部分。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。
实践中的思想树推理
像迷你填字游戏这样的约束性谜题,其中每个填充的单词都是一个想法,不兼容的分支将被放弃。
像迷你填字游戏这样的约束难题,其中每个填满的单词都是一个想法,不兼容的分支会被放弃。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。
实践中的思想树推理
多步骤数学或规划问题,其中模型探索替代中间步骤并从违反约束的步骤中回溯。
多步骤数学或规划问题,其中模型探索替代的中间步骤,并从违反约束的步骤中回溯。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。
风险与防护栏
优化一项基准测试可以隐藏更广泛的系统弱点。
基础设施和维护成本常常被低估。
随着系统变得更加复杂,安全性和可观察性差距可能会扩大。
实施路线图
在实施之前定义延迟、质量和成本目标。
在实施之前定义延迟、质量和成本目标。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。
在实际负载和数据条件下进行基准测试。
在实际负载和数据条件下进行基准测试。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。
仪器监控错误、漂移和用户影响。
仪器监控错误、漂移和用户影响。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。
在扩展之前准备回滚和事件响应路径。
在扩展之前准备回滚和事件响应路径。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。