应用指南

人工智能手写识别

手写识别使用人工智能将笔划或扫描墨迹转换为数字文本。

概述

手写识别使用人工智能将笔划或扫描墨迹转换为数字文本。它可以为一切提供支持,从用手机存入支票到数字化具有数百年历史的手稿。

手写识别中的人工智能侧重于实际部署:将模型功能转化为可靠的日常工作流程,提供可衡量的价值。

深入探讨

手写识别分为两种类型。离线(或光学)识别是通过静态图像进行的,例如扫描的信件,其中人工智能只能看到完成的墨水。在线识别会捕获在手写笔或触摸屏上发生的书写,因此该模型还知道笔划顺序、速度和笔压,这使得它更加准确。现代系统使用神经网络,通常是 CNN 来读取形状,加上循环层或变换层来对序列进行建模。一个关键技巧是连接主义时间分类(CTC),它允许网络输出文本,而不需要预先分割每个字母。草书是最难的,因为字母会模糊在一起,因此模型会学习整个单词并使用语言上下文来消除歧义循环。

技术洞察

由于手写体没有清晰的字母边界,因此 CNN 首先从图像的滑动窗口中提取视觉特征,然后 LSTM 或转换器将它们作为序列读取。 CTC 损失将此可变长度输出与文本对齐,无需每个字符的标签,从而折叠重复的预测和空白。然后,语言模型会对候选者重新评分,因此使用单词概率将“tne”变成“the”,就像指导原始视觉猜测的拼写检查一样。

掌握人工智能手写识别

手写识别使用人工智能将笔划或扫描墨迹转换为数字文本。它可以为一切提供支持,从用手机存入支票到数字化具有数百年历史的手稿。手写识别中的人工智能侧重于实际部署:将模型功能转化为可靠的日常工作流程,提供可衡量的价值。为了建立深入的理解,请将手写识别中的人工智能视为一种操作模型,而不是单一功能:定义期望的结果,澄清假设,并将系统可以可靠地完成的任务与仍需要专家判断的任务分开。

在实践中,在手写识别中使用人工智能的强大团队专注于工作流程结果,而不是模型演示,并尽早定义人工检查点。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

应用级设计决定了人工智能是否能改善实际结果。与此同时,将损坏的流程自动化可能会加剧现有的问题。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

应用级设计决定了人工智能是否能改善实际结果。

应用级设计决定了人工智能是否能改善实际结果。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

良好的工作流程集成可以创造用户值得信赖的生产力收益。

良好的工作流程集成可以创造用户值得信赖的生产力收益。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

范围明确的用例可以减少变更疲劳和实施风险。

范围明确的用例可以减少变更疲劳和实施风险。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

人工智能手写识别的未来

预计设备上的识别会更严格,因此笔记会立即转换为文本,而无需将墨迹发送到云端,从而提高隐私性和速度。在许多脚本上训练的 Transformer 模型将更好地处理代码切换和罕见语言。历史学家正在扩展 Transkribus 等手写文本识别平台,以将曾经被认为不可读的档案数字化。多模式模型可以读取凌乱的笔迹以及图表和数学,这将使扫描的笔记本完全可搜索。

现实世界的实施

银行应用程序读取支票照片上的手写金额以进行移动存款。

USPS 等邮政服务通过读取手写的邮政编码和地址来自动分类邮件。

Apple Notes、OneNote 和 GoodNotes 等笔记应用程序可将手写笔涂鸦转换为可搜索的键入文本。

Transkribus 等项目将历史手稿和人口普查记录数字化为可搜索的档案。

实施模式

人工智能在手写识别中的实践

银行应用程序读取支票照片上的手写金额以进行移动存款。

银行应用程序读取移动存款支票照片上的手写金额。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会获得更好的结果。

人工智能在手写识别中的实践

USPS 等邮政服务通过读取手写的邮政编码和地址来自动分类邮件。

USPS 等邮政服务通过读取手写的邮政编码和地址来自动分类邮件。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会获得更好的结果。

人工智能在手写识别中的实践

Apple Notes、OneNote 和 GoodNotes 等笔记应用程序可将手写笔涂鸦转换为可搜索的键入文本。

Apple Notes、OneNote 和 GoodNotes 等笔记应用程序可将手写笔涂鸦转换为可搜索的键入文本。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力提升和错误成本时,通常会获得更好的结果。

人工智能在手写识别中的实践

Transkribus 等项目将历史手稿和人口普查记录数字化为可搜索的档案。

像 Transkribus 这样的项目将历史手稿和人口普查记录数字化到可搜索的档案中。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。

风险与防护栏

!

将损坏的流程自动化可能会加剧现有问题。

!

团队可能会过度自动化并消除所需的人工判断。

!

如果不持续评估输出,质量可能会出现偏差。

实施路线图

1

绘制当前工作流程并确定摩擦最大的步骤。

绘制当前工作流程并确定摩擦最大的步骤。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

在完全自动化之前定义人工检查点。

在完全自动化之前定义人工检查点。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

对用户进行提示、升级路径和质量标准方面的培训。

对用户进行提示、升级路径和质量标准方面的培训。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

跟踪任务级结果以确认持续价值。

跟踪任务级结果以确认持续价值。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索