语言人工智能指南

词片标记化

WordPiece 是子词标记化算法,为 BERT 和许多 Google 模型提供支持,将单词分割成可重用的片段,以便模型可以处理具有固定词汇表的任何文本。

概述

WordPiece 是子词标记化算法,为 BERT 和许多 Google 模型提供支持,将单词分割成可重用的片段,以便模型可以处理具有固定词汇表的任何文本。这就是为什么从未见过“不快乐”的模型仍然可以通过阅读“un”、“##happy”和“##ness”来理解它。

WordPiece Tokenization 是语言 AI ​​堆栈的一部分,用于大规模读取、生成、分类和转换文本和语音。

深入探讨

WordPiece 构建子词单元的词汇表,而不是整个单词或单个字符。从单个字符开始,它贪婪地合并最能增加训练语料库可能性的符号对,重复直到达到目标词汇量(BERT 使用大约 30,000 个标记)。在推理时,它贪婪地从左到右标记,匹配词汇表中最长的子词,然后继续处理其余部分。单词内的延续部分标有“##”前缀,因此“playing”变为“play”+“##ing”。这解决了词汇表外的问题:罕见或未见过的单词简单地分解为已知的片段,如果需要的话可以分解为单个字符,而常见的单词则保留为单个标记以提高效率。

技术洞察

WordPiece 与字节对编码的不同之处在于其合并标准。 BPE合并最频繁的相邻对; WordPiece 合并最大化训练数据可能性的对,粗略地选择联合频率最超过其部分频率乘积的对。 “##”标记区分词首片段和后续片段,让分词器在解码回文本时明确地重建词边界。

掌握 WordPiece 标记化

WordPiece 是子词标记化算法,为 BERT 和许多 Google 模型提供支持,将单词分割成可重用的片段,以便模型可以处理具有固定词汇表的任何文本。这就是为什么从未见过“不快乐”的模型仍然可以通过阅读“un”、“##happy”和“##ness”来理解它。 WordPiece Tokenization 是语言 AI ​​堆栈的一部分,用于大规模读取、生成、分类和转换文本和语音。为了建立深入的理解,请将 WordPiece Tokenization 视为一种操作模型,而不是单一功能:定义期望的结果,澄清假设,并将系统可以可靠地执行的操作与仍需要专家判断的操作分开。

在实践中,使用 WordPiece Tokenization 的强大团队将提示、检索和审查循环设计为一个集成通信系统。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

语言工作流程可以在不牺牲一致性的情况下更快地移动。与此同时,幻觉事实可以悄悄地进入报告、支持流程或研究成果。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

语言工作流程可以在不牺牲一致性的情况下更快地移动。

语言工作流程可以在不牺牲一致性的情况下更快地移动。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

它扩展了跨语言和沟通方式的访问。

它扩展了跨语言和沟通方式的访问。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

团队可以花更多时间进行判断,而自动化则可以处理重复。

团队可以花更多时间进行判断,而自动化则可以处理重复。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

WordPiece 代币化的未来

较新的大型语言模型越来越青睐字节级 BPE(GPT 系列)或 SentencePiece 一元模型,它们避免了特定于语言的预处理并处理任何 Unicode 输入。 WordPiece 仍然是 BERT 派生编码器的基础,仍然广泛部署用于搜索和分类。预计在生产 NLP 中继续使用,同时研究无分词器的字节和字符模型,最终可能完全减少对固定子词词汇的依赖。

现实世界的实施

BERT 对 Google 搜索中的搜索查询进行标记,将不熟悉的术语分解为子词,以便模型仍然可以匹配相关页面。

Hugging Face 的 BertTokenizer 使用 WordPiece 将原始文本转换为馈送到 BERT 的令牌 ID,以进行情感分析和命名实体识别。

多语言 BERT 使用跨 100 多种语言的共享 WordPiece 词汇表,让片段可以在相关脚本中重复使用。

DistilBERT 和临床/生物医学 BERT 变体继承了 WordPiece,通过将罕见的医学术语(例如“肺尘埃沉着病”)拆分为已知的片段来处理它们。

实施模式

WordPiece 标记化的实践

BERT 对 Google 搜索中的搜索查询进行标记,将不熟悉的术语分解为子词,以便模型仍然可以匹配相关页面。

BERT 在 Google 搜索中对搜索查询进行标记,将不熟悉的术语分解为子词,以便模型仍然可以匹配相关页面。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。

WordPiece 标记化的实践

Hugging Face 的 BertTokenizer 使用 WordPiece 将原始文本转换为馈送到 BERT 的令牌 ID,以进行情感分析和命名实体识别。

Hugging Face 的 BertTokenizer 使用 WordPiece 将原始文本转换为提供给 BERT 进行情感分析和命名实体识别的令牌 ID。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

WordPiece 标记化的实践

多语言 BERT 使用跨 100 多种语言的共享 WordPiece 词汇表,让片段可以在相关脚本中重复使用。

多语言 BERT 使用跨 100 多种语言的共享 WordPiece 词汇表,让片段在相关脚本中重复使用。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

WordPiece 标记化的实践

DistilBERT 和临床/生物医学 BERT 变体继承了 WordPiece,通过将罕见的医学术语(例如“肺尘埃沉着病”)拆分为已知的片段来处理它们。

DistilBERT 和临床/生物医学 BERT 变体继承了 WordPiece,通过将“肺尘埃沉着病”等罕见医学术语拆分为已知片段来处理这些术语。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

风险与防护栏

!

幻觉的事实可以悄悄地进入报告、支持流程或研究成果。

!

及时的敏感性可能会在类似的请求中产生不一致的结果。

!

如果访问控制薄弱,敏感文本数据可能会暴露。

实施路线图

1

在推出之前定义输出格式、语气和质量标准。

在推出之前定义输出格式、语气和质量标准。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

当准确性很重要时,请使用可信来源进行地面响应。

当准确性很重要时,请使用可信来源进行地面响应。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

为高风险输出保留人工审查检查点。

为高风险输出保留人工审查检查点。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

跟踪故障模式并定期重新训练提示或工作流程。

跟踪故障模式并定期重新训练提示或工作流程。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索