语言人工智能指南

推测性解码草案模型

推测性解码使用小型、快速的“草稿”模型来猜测几个即将出现的标记,然后大型模型一次性验证这些标记。

概述

推测性解码使用小型、快速的“草稿”模型来猜测几个即将出现的标记,然后大型模型一次性验证这些标记。它可以在不改变输出的情况下将文本生成速度提高 2-3 倍。

推测性解码草案模型是语言 AI ​​堆栈的一部分,用于大规模读取、生成、分类和转换文本和语音。

深入探讨

大型语言模型一次生成一个标记的文本,每一步都需要完全前向传递数十亿个参数——速度慢且受内存限制。推测性解码通过将大的“目标”模型与廉价的“草稿”模型配对来解决这个问题。模型草案快速提出了一大块,例如 4-8 个候选令牌。然后,大模型在一次并行前向传递中处理所有这些,并检查每一个。接受与大模型生成的代币相匹配的代币;第一个不匹配被纠正,其余的被丢弃。由于一次验证多个代币的成本与生成一个代币的成本大致相同,因此接受的运行几乎是免费的。至关重要的是,拒绝采样步骤可确保最终分布与单独运行大模型相同 - 速度快且质量没有损失。

技术洞察

关键技巧是改进的拒绝抽样测试。对于每个起草的令牌,目标模型的概率与草案模型的概率进行比较。如果目标分配相同或更高的概率,则令牌被接受;否则,它以等于该比率的概率被接受,并且在拒绝时,从调整后的残差分布中采样校正的令牌。这种数学计算使得输出可证明相当于直接从大型模型中采样。

掌握推测解码草案模型

推测性解码使用小型、快速的“草稿”模型来猜测几个即将出现的标记,然后大型模型一次性验证这些标记。它可以在不改变输出的情况下将文本生成速度提高 2-3 倍。推测性解码草案模型是语言 AI ​​堆栈的一部分,用于大规模读取、生成、分类和转换文本和语音。为了建立深入的理解,请将推测解码草案模型视为一种操作模型,而不是单一功能:定义期望的结果,澄清假设,并将系统可以可靠地完成的任务与仍需要专家判断的任务分开。

在实践中,使用推测解码草案模型的强大团队将提示、检索和审查循环设计为一个集成的通信系统。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

语言工作流程可以在不牺牲一致性的情况下更快地移动。与此同时,幻觉事实可以悄悄地进入报告、支持流程或研究成果。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

语言工作流程可以在不牺牲一致性的情况下更快地移动。

语言工作流程可以在不牺牲一致性的情况下更快地移动。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

它扩展了跨语言和沟通方式的访问。

它扩展了跨语言和沟通方式的访问。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

团队可以花更多时间进行判断,而自动化则可以处理重复。

团队可以花更多时间进行判断,而自动化则可以处理重复。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

推测性解码草案模型的未来

预计草案模型将成为 vLLM 和 TensorRT-LLM 等推理服务器的标准基础设施。自我推测变体(Medusa、EAGLE)通过添加轻量级预测头完全放弃了单独的草稿模型,并且基于树的草稿同时验证了许多候选延续。随着上下文窗口的增长和服务成本的主导,更智能、模型匹配的绘图员和硬件感知验证将提高接受率和吞吐量。

现实世界的实施

Anthropic、OpenAI 和 Google 使用推测解码来减少为数百万用户提供服务的聊天助手的延迟和服务成本。

vLLM 和 NVIDIA TensorRT-LLM 附带内置推测解码,因此自托管程序可以加速 Llama 或 Mistral 部署。

将 7B 草稿模型与 70B 目标(例如 Llama-3 系列)配对,可在单个 GPU 上将每秒令牌数大约增加一倍。

代码完成工具使用一个微小的草稿模型来提出由较大模型验证的样板,从而使建议在编辑器中保持敏捷。

实施模式

实践中的推测性解码草案模型

Anthropic、OpenAI 和 Google 使用推测解码来减少为数百万用户提供服务的聊天助手的延迟和服务成本。

Anthropic、OpenAI 和 Google 使用推测性解码来减少为数百万用户提供服务的聊天助手的延迟和服务成本。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

实践中的推测性解码草案模型

vLLM 和 NVIDIA TensorRT-LLM 附带内置推测解码,因此自托管程序可以加速 Llama 或 Mistral 部署。

vLLM 和 NVIDIA TensorRT-LLM 提供内置推测解码,因此自托管程序可以加快 Llama 或 Mistral 部署速度。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

实践中的推测性解码草案模型

将 7B 草稿模型与 70B 目标(例如 Llama-3 系列)配对,可在单个 GPU 上将每秒令牌数大约增加一倍。

将 7B 草稿模型与 70B 目标(例如 Llama-3 系列)配对,使单个 GPU 上的每秒令牌数大约翻倍。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

实践中的推测性解码草案模型

代码完成工具使用一个微小的草稿模型来提出由较大模型验证的样板,从而使建议在编辑器中保持敏捷。

代码完成工具使用微小的草稿模型来提出样板文件,供较大的模型验证,从而在编辑器中保持建议的敏捷性。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。

风险与防护栏

!

幻觉的事实可以悄悄地进入报告、支持流程或研究成果。

!

及时的敏感性可能会在类似的请求中产生不一致的结果。

!

如果访问控制薄弱,敏感文本数据可能会暴露。

实施路线图

1

在推出之前定义输出格式、语气和质量标准。

在推出之前定义输出格式、语气和质量标准。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

当准确性很重要时,请使用可信来源进行地面响应。

当准确性很重要时,请使用可信来源进行地面响应。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

为高风险输出保留人工审查检查点。

为高风险输出保留人工审查检查点。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

跟踪故障模式并定期重新训练提示或工作流程。

跟踪故障模式并定期重新训练提示或工作流程。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索