语言人工智能指南

子词标记化

子词标记化将文本分割成小于单词但大于字符的单元，例如“标记”加“化”。

概述

子词标记化将文本分割成小于单词但大于字符的单元，例如“标记”加“化”。这是现代语言模型将文本转换为它们实际处理的离散 ID 的标准方法，平衡词汇量大小和含义。

子词标记化是语言 AI 堆栈的一部分，用于大规模读取、生成、分类和转换文本和语音。

深入探讨

单词太多，无法一一列举（词汇量会很大，会漏掉生僻单词），而单个字符的意义不大，导致序列很长。子词标记化是一种折衷方案：它将常用单词保持完整，但将罕见或复杂的单词分解为有意义的片段。 “不快乐”可能会变成“un”、“happi”、“ness”。主要算法包括 Byte-Pair Encoding（GPT 使用）、WordPiece（BERT 使用）和 Unigram/SentencePiece（T5 和许多多语言模型使用）。这种方法可以优雅地处理看不见的单词，在相关单词之间共享片段（“play”、“playing”、“played”），并支持任何语言。每个片段映射到一个整数 ID，这些 ID 是模型嵌入层转换为向量的内容。

技术洞察

不同的算法以不同的方式选择子词：BPE 自下而上地合并频繁对，WordPiece 选择最能增加语料库可能性的合并，而 Unigram 从大量词汇开始，并修剪对可能性影响最小的标记。 WordPiece 使用“##”前缀标记单词内部片段，而 SentencePiece 将空格视为特殊符号，因此它可以直接在原始文本上工作，而无需对空格进行预分割，非常适合没有空格的语言。

掌握子词标记化

子词标记化将文本分割成小于单词但大于字符的单元，例如“标记”加“化”。这是现代语言模型将文本转换为它们实际处理的离散 ID 的标准方法，平衡词汇量大小和含义。子词标记化是语言 AI 堆栈的一部分，用于大规模读取、生成、分类和转换文本和语音。为了建立深入的理解，请将子词标记化视为一种操作模型，而不是单个功能：定义期望的结果，澄清假设，并将系统可以可靠地完成的任务与仍需要专家判断的任务分开。

在实践中，使用子词标记化的强大团队将提示、检索和审查循环设计为一个集成的通信系统。他们记录明确的成功标准，根据实际数据和工作流程进行测试，并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

语言工作流程可以在不牺牲一致性的情况下更快地移动。与此同时，幻觉事实可以悄悄地进入报告、支持流程或研究成果。最具弹性的方法是将实验速度与治理规则结合起来：运行试点、捕获证据、发布决策日志，并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

语言工作流程可以在不牺牲一致性的情况下更快地移动。

语言工作流程可以在不牺牲一致性的情况下更快地移动。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

它扩展了跨语言和沟通方式的访问。

它扩展了跨语言和沟通方式的访问。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

团队可以花更多时间进行判断，而自动化则可以处理重复。

团队可以花更多时间进行判断，而自动化则可以处理重复。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

子词标记化的未来

子词标记化将保持主导地位，因为它快速且紧凑，但它的弱点，数学、代码和罕见脚本中的尴尬分割，加上跨语言的标记成本不均匀，正在推动对字节级和无标记模型的研究。期待更智能、可能学习或自适应的标记器和更好的多语言公平性，这样非英语文本就不会因为每个句子有更多的标记而受到惩罚。

现实世界的实施

BERT 使用 WordPiece 标记化，标记“##ing”等延续片段来重建原始单词。

T5 和许多多语言模型使用 SentencePiece，它直接处理日语等无空格语言。

聊天模型将罕见的技术术语分割成已知的片段，而不是在未知的单词上失败。

分词器在“run”、“running”和“runner”之间共享子词，让模型有效地概括形态。

实施模式

实践中的子词标记化

BERT 使用 WordPiece 标记化，标记“##ing”等延续片段来重建原始单词。

BERT 使用 WordPiece 标记化，标记“##ing”等延续片段来重建原始单词。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力增益和错误成本时，通常会获得更好的结果。

实践中的子词标记化

T5 和许多多语言模型使用 SentencePiece，它直接处理日语等无空格语言。

T5 和许多多语言模型使用 SentencePiece，它可以直接处理日语等无空间语言。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时，通常会获得更好的结果。

实践中的子词标记化

聊天模型将罕见的技术术语分割成已知的片段，而不是在未知的单词上失败。

聊天模型将罕见的技术术语分割成已知的片段，而不是在未知的单词上失败。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力提高和错误成本时，通常会得到更好的结果。

实践中的子词标记化

分词器在“run”、“running”和“runner”之间共享子词，让模型有效地概括形态。

分词器在“run”、“running”和“runner”之间共享子词，让模型有效地概括形态。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时，通常会得到更好的结果。

风险与防护栏

幻觉的事实可以悄悄地进入报告、支持流程或研究成果。

及时的敏感性可能会在类似的请求中产生不一致的结果。

如果访问控制薄弱，敏感文本数据可能会暴露。

实施路线图

在推出之前定义输出格式、语气和质量标准。

在推出之前定义输出格式、语气和质量标准。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

当准确性很重要时，请使用可信来源进行地面响应。

当准确性很重要时，请使用可信来源进行地面响应。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

为高风险输出保留人工审查检查点。

为高风险输出保留人工审查检查点。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

跟踪故障模式并定期重新训练提示或工作流程。

跟踪故障模式并定期重新训练提示或工作流程。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

不断探索

ChatGPT 和法学硕士

了解现代语言模型如何生成和推理。

阅读指南

自然语言处理基础知识

了解这些工具背后的语言处理基础知识。

阅读指南