语言人工智能指南

推测性抽样验证

推测采样通过让小型“草稿”模型提前猜测多个标记，然后让大型模型一次性验证它们，从而加速大型语言模型的生成。

概述

推测采样通过让小型“草稿”模型提前猜测多个标记，然后让大型模型一次性验证它们，从而加速大型语言模型的生成。巧妙的验证步骤保证了输出与大模型自己产生的结果相匹配。

推测采样验证是语言 AI 堆栈的一部分，用于大规模读取、生成、分类和转换文本和语音。

深入探讨

自回归生成速度很慢，因为每个令牌都需要一个巨大模型的完整前向传递。推测抽样通过将廉价的草稿模型与昂贵的目标模型配对来解决这个问题。该草案提议短期发行代币（例如 4-8 个）；然后目标通过一次平行向前传球将所有球得分。修改后的拒绝采样规则接受与目标自身分布一致的最长前缀，并在第一个拒绝位置重新采样。因为接受是概率性的并且是经过校正的，所以最终的令牌流可以证明完全像目标单独生成一样分布，没有质量损失。当草稿快速且对齐良好时，典型的加速是 2-3 倍，因为每个昂贵的调用都会确认多个令牌。

技术洞察

对于每个起草的令牌，您可以比较目标概率 q 和起草概率 p。以概率 min(1, q/p) 接受；如果被拒绝，则从归一化残差分布 max(0, q-p) 中采样。此拒绝规则使边际分布与纯目标采样相同。目标的并行传递还会在最后接受的令牌之后“免费”生成下一个令牌分配，因此进度永远不会停止。

掌握推测抽样验证

推测采样通过让小型“草稿”模型提前猜测多个标记，然后让大型模型一次性验证它们，从而加速大型语言模型的生成。巧妙的验证步骤保证了输出与大模型自己产生的结果相匹配。推测采样验证是语言 AI 堆栈的一部分，用于大规模读取、生成、分类和转换文本和语音。为了建立深入的理解，请将推测性抽样验证视为一种操作模型，而不是单一功能：定义期望的结果，澄清假设，并将系统可以可靠地执行的操作与仍需要专家判断的操作分开。

在实践中，使用推测抽样验证的强大团队将提示、检索和审查循环设计为一个集成的通信系统。他们记录明确的成功标准，根据实际数据和工作流程进行测试，并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

语言工作流程可以在不牺牲一致性的情况下更快地移动。与此同时，幻觉事实可以悄悄地进入报告、支持流程或研究成果。最具弹性的方法是将实验速度与治理规则结合起来：运行试点、捕获证据、发布决策日志，并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

语言工作流程可以在不牺牲一致性的情况下更快地移动。

语言工作流程可以在不牺牲一致性的情况下更快地移动。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

它扩展了跨语言和沟通方式的访问。

它扩展了跨语言和沟通方式的访问。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

团队可以花更多时间进行判断，而自动化则可以处理重复。

团队可以花更多时间进行判断，而自动化则可以处理重复。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

推测性抽样验证的未来

推测性解码正在成为推理堆栈的标准。较新的变体放弃了单独的草稿模型：自我推测使用提前退出或额外的预测头（Medusa、EAGLE），基于树的草稿一次验证许多候选延续，前瞻解码并行化 n-gram 猜测。预计与批处理和 KV 缓存管理、硬件感知草稿大小的更紧密集成，以及在对延迟敏感的产品（如聊天助手和编码工具）中更广泛的使用，其中每一毫秒都很重要。

现实世界的实施

使用 7B 草稿模型提供 70B 聊天模型，可将响应延迟大约减少一半，同时输出质量相同。

美杜莎风格的头是用一个模型预测几个未来的代币，然后在没有单独的草案网络的情况下验证它们。

基于树的推测解码，提出多个分支延续并在一次目标传递中验证它们。

加速代码完成助手，其中草稿模型处理大型模型快速确认的可预测样板文件。

实施模式

实践中的推测抽样验证

使用 7B 草稿模型提供 70B 聊天模型，可将响应延迟大约减少一半，同时输出质量相同。

使用 7B 草稿模型提供 70B 聊天模型，可在相同的输出质量下将响应延迟减少大约一半。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时，通常会获得更好的结果。

实践中的推测抽样验证

美杜莎风格的头是用一个模型预测几个未来的代币，然后在没有单独的草案网络的情况下验证它们。

美杜莎式的单一模型预测几个未来的代币，然后在没有单独的草稿网络的情况下验证它们。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时，通常会得到更好的结果。

实践中的推测抽样验证

基于树的推测解码，提出多个分支延续并在一次目标传递中验证它们。

基于树的推测性解码，提出多个分支延续，并在一次目标传递中验证它们。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时，通常会得到更好的结果。

实践中的推测抽样验证

加速代码完成助手，其中草稿模型处理大型模型快速确认的可预测样板文件。

加快代码完成助手的速度，其中草稿模型处理大型模型快速确认的可预测的样板文件。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时，通常会获得更好的结果。

风险与防护栏

幻觉的事实可以悄悄地进入报告、支持流程或研究成果。

及时的敏感性可能会在类似的请求中产生不一致的结果。

如果访问控制薄弱，敏感文本数据可能会暴露。

实施路线图

在推出之前定义输出格式、语气和质量标准。

在推出之前定义输出格式、语气和质量标准。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

当准确性很重要时，请使用可信来源进行地面响应。

当准确性很重要时，请使用可信来源进行地面响应。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

为高风险输出保留人工审查检查点。

为高风险输出保留人工审查检查点。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

跟踪故障模式并定期重新训练提示或工作流程。

跟踪故障模式并定期重新训练提示或工作流程。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

不断探索

ChatGPT 和法学硕士

了解现代语言模型如何生成和推理。

阅读指南

自然语言处理基础知识

了解这些工具背后的语言处理基础知识。

阅读指南