应用指南

人工智能手语翻译

人工智能手语翻译利用计算机视觉和机器学习将美国手语等手语翻译成文本或语音,有时甚至相反。

概述

人工智能手语翻译利用计算机视觉和机器学习将美国手语等手语翻译成文本或语音,有时甚至相反。这很重要,因为它可以在没有人工翻译在场的情况下开启聋人和听力正常者之间的日常交流。

手语翻译中的人工智能侧重于实际部署:将模型功能转化为可靠的日常工作流程,提供可衡量的价值。

深入探讨

美国手语 (ASL) 和英国手语 (BSL) 等手语是完全自然的语言,有自己的语法,而不是英语口语的手语版本。人工智能翻译系统可以捕捉手形、动作、位置、手掌方向,以及至关重要的非手动标记,例如眉毛抬起和改变含义的嘴巴形状。摄像头或深度传感器将视频输入姿势估计模型(通常是 MediaPipe Holistic),该模型提取骨骼关键点,然后序列模型将其映射到注释或句子。最困难的问题是没有明确单词边界的连续签名、地区方言、空间描述对象的分类器以及大型注释数据集的稀缺。许多演示仍然仅限于孤立的符号,而不是流畅的对话。

技术洞察

通用管道首先运行姿势估计,将每个帧转换为手、面部和身体的 2D 或 3D 关键点,并为了隐私和速度而丢弃原始像素。时间模型(例如 Transformer 或 RNN)通常使用连接主义时间分类 (CTC) 进行训练,将关键点序列与注释标签对齐,而不需要逐帧注释。第二个翻译阶段将注释转换为符合语法的口语文本。

掌握人工智能手语翻译

人工智能手语翻译利用计算机视觉和机器学习将美国手语等手语翻译成文本或语音,有时甚至相反。这很重要,因为它可以在没有人工翻译在场的情况下开启聋人和听力正常者之间的日常交流。手语翻译中的人工智能侧重于实际部署:将模型功能转化为可靠的日常工作流程,提供可衡量的价值。为了建立深入的理解,请将手语翻译中的人工智能视为一种操作模型,而不是单一功能:定义期望的结果,澄清假设,并将系统可以可靠地完成的任务与仍需要专家判断的任务分开。

在实践中,在手语翻译中使用人工智能的强大团队专注于工作流程结果,而不是模型演示,并尽早定义人工检查点。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

应用级设计决定了人工智能是否能改善实际结果。与此同时,将损坏的流程自动化可能会加剧现有的问题。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

应用级设计决定了人工智能是否能改善实际结果。

应用级设计决定了人工智能是否能改善实际结果。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

良好的工作流程集成可以创造用户值得信赖的生产力收益。

良好的工作流程集成可以创造用户值得信赖的生产力收益。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

范围明确的用例可以减少变更疲劳和实施风险。

范围明确的用例可以减少变更疲劳和实施风险。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

人工智能手语翻译的未来

进展在很大程度上取决于更大的、社区构建的数据集(例如 How2Sign)以及当前系统经常错过的非手动标记。预计与可签名的化身、设备上的隐私模型以及标准化基准进行更紧密的集成。研究人员越来越强调与聋人社区的共同设计,因此工具支持而不是取代人类口译员,特别是在医学和法律等高风险环境中,错误会带来真正的后果。

现实世界的实施

医院接待处的平板电脑应用程序可以识别聋哑患者的签名问题并向工作人员显示文本

将火车站或机场公告渲染到 ASL 或 BSL 视频中的签名头像

教育工具可以为学习者提供关于他们的手形和动作是否与目标标志匹配的即时反馈

实时字幕原型可将视频通话中的手语翻译成口语字幕

实施模式

人工智能手语翻译实践

医院接待处的平板电脑应用程序可以识别聋哑患者的签名问题并向工作人员显示文本。

医院接待处的平板电脑应用程序可以识别聋哑患者的签名问题并为工作人员显示文本。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会获得更好的结果。

人工智能手语翻译实践

将火车站或机场公告渲染到 ASL 或 BSL 视频中的签名头像。

将火车站或机场公告呈现为 ASL 或 BSL 视频的签名化身 当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会获得更好的结果。

人工智能手语翻译实践

教育工具可以为学习者提供关于他们的手形和动作是否与目标标志匹配的即时反馈。

教育工具可以为学习者提供关于他们的手形和动作是否与目标标志匹配的即时反馈。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会获得更好的结果。

人工智能手语翻译实践

实时字幕原型可将视频通话中的手语翻译成口语字幕。

将视频通话中的签名者翻译成口语字幕的实时字幕原型 当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会获得更好的结果。

风险与防护栏

!

将损坏的流程自动化可能会加剧现有问题。

!

团队可能会过度自动化并消除所需的人工判断。

!

如果不持续评估输出,质量可能会出现偏差。

实施路线图

1

绘制当前工作流程并确定摩擦最大的步骤。

绘制当前工作流程并确定摩擦最大的步骤。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

在完全自动化之前定义人工检查点。

在完全自动化之前定义人工检查点。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

对用户进行提示、升级路径和质量标准方面的培训。

对用户进行提示、升级路径和质量标准方面的培训。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

跟踪任务级结果以确认持续价值。

跟踪任务级结果以确认持续价值。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索