语言人工智能指南

字节对编码

字节对编码 (BPE) 是一种受压缩启发的算法,它通过重复合并最频繁的符号对来构建词汇表。

概述

字节对编码 (BPE) 是一种受压缩启发的算法,它通过重复合并最频繁的符号对来构建词汇表。它是 GPT 模型背后的分词器,平衡微小的字符词汇表和庞大的整个单词词汇表。

字节对编码是语言人工智能堆栈的一部分,用于大规模读取、生成、分类和转换文本和语音。

深入探讨

BPE 首先将文本视为单个字符(或原始字节)的序列。然后,它对每个相邻的符号对进行计数,将最常见的符号对合并为一个新的标记,并重复此操作数千次。每次合并都会被记录为规则。常见的字母序列(如“th”、“ing”)或整个频繁出现的单词逐渐变成单个标记,而罕见的单词则保持分割成较小的部分。它最初是 1994 年的一种数据压缩方法,后来由 Sennrich 等人改编为 NLP。 2016年机器翻译。 GPT-2 和 GPT-4 使用字节级 BPE,它在 UTF-8 字节上运行,因此任何字符、表情符号或语言始终可以以零词汇外故障进行编码。

技术洞察

训练 BPE 会生成合并规则的有序列表。为了标记新文本,该算法将其拆分为字节/字符,并以相同的优先级顺序贪婪地应用合并,直到没有规则匹配为止。字节级 BPE 保证了回退:即使是看不见的符号也会分解为其组成字节,因此 256 字节的词汇表加上学习的合并涵盖了没有 UNK 令牌的所有内容。

掌握字节对编码

字节对编码 (BPE) 是一种受压缩启发的算法,它通过重复合并最频繁的符号对来构建词汇表。它是 GPT 模型背后的分词器,平衡微小的字符词汇表和庞大的整个单词词汇表。字节对编码是语言人工智能堆栈的一部分,用于大规模读取、生成、分类和转换文本和语音。为了建立深入的理解,请将字节对编码视为一种操作模型,而不是单个功能:定义所需的结果,澄清假设,并将系统可以可靠地执行的操作与仍需要专家判断的操作分开。

在实践中,使用字节对编码的强大团队将提示、检索和审查循环设计为一个集成通信系统。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

语言工作流程可以在不牺牲一致性的情况下更快地移动。与此同时,幻觉事实可以悄悄地进入报告、支持流程或研究成果。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

语言工作流程可以在不牺牲一致性的情况下更快地移动。

语言工作流程可以在不牺牲一致性的情况下更快地移动。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

它扩展了跨语言和沟通方式的访问。

它扩展了跨语言和沟通方式的访问。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

团队可以花更多时间进行判断,而自动化则可以处理重复。

团队可以花更多时间进行判断,而自动化则可以处理重复。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

字节对编码的未来

BPE 仍然是主力标记器,但字节或字符级模型的压力越来越大,这些模型跳过显式标记化,避免代码、数学或非英语脚本中尴尬的分割等怪癖。对无 token 架构和学习 tokenizer 的研究旨在修复 BPE 的偏见。尽管如此,其速度和压缩效率意味着 BPE 风格的词汇表将在不久的将来为大多数生产法学硕士提供支持。

现实世界的实施

GPT-2 和 GPT-4 使用字节级 BPE,因此任何 Unicode 字符或表情符号都可以毫无错误地进行编码。

机器翻译系统使用 BPE 将稀有词或复合词分割成跨语言共享的可重用子词片段。

Hugging Face 的标记器库为生物医学或法律文本等自定义领域训练 BPE 词汇表。

代码模型使用 BPE 对标识符和关键字进行标记,将“def”或“==”等频繁模式合并为单个标记。

实施模式

字节对编码实践

GPT-2 和 GPT-4 使用字节级 BPE,因此任何 Unicode 字符或表情符号都可以毫无错误地进行编码。

GPT-2 和 GPT-4 使用字节级 BPE,因此任何 Unicode 字符或表情符号都可以无错误地进行编码。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

字节对编码实践

机器翻译系统使用 BPE 将稀有词或复合词分割成跨语言共享的可重用子词片段。

机器翻译系统使用 BPE 将稀有词或复合词拆分为跨语言共享的可重用子词片段。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会获得更好的结果。

字节对编码实践

Hugging Face 的标记器库为生物医学或法律文本等自定义领域训练 BPE 词汇表。

Hugging Face 的 tokenizers 库为生物医学或法律文本等自定义领域训练 BPE 词汇。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。

字节对编码实践

代码模型使用 BPE 对标识符和关键字进行标记,将“def”或“==”等频繁模式合并为单个标记。

代码模型使用 BPE 对标识符和关键字进行标记,将“def”或“==”等频繁模式合并到单个标记中。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

风险与防护栏

!

幻觉的事实可以悄悄地进入报告、支持流程或研究成果。

!

及时的敏感性可能会在类似的请求中产生不一致的结果。

!

如果访问控制薄弱,敏感文本数据可能会暴露。

实施路线图

1

在推出之前定义输出格式、语气和质量标准。

在推出之前定义输出格式、语气和质量标准。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

当准确性很重要时,请使用可信来源进行地面响应。

当准确性很重要时,请使用可信来源进行地面响应。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

为高风险输出保留人工审查检查点。

为高风险输出保留人工审查检查点。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

跟踪故障模式并定期重新训练提示或工作流程。

跟踪故障模式并定期重新训练提示或工作流程。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索