音频人工智能指南

深度噪声抑制挑战

深度噪声抑制 (DNS) 挑战赛是一项由 Microsoft 举办的竞赛,旨在推动研究人员构建能够实时去除语音中背景噪声的神经网络。

概述

深度噪声抑制 (DNS) 挑战赛是一项由 Microsoft 举办的竞赛,旨在推动研究人员构建能够实时去除语音中背景噪声的神经网络。它设定了现代基准,为 Teams 和 Zoom 噪音消除等功能提供动力。

深度噪声抑制挑战属于音频人工智能工作流程,可改变语音、音乐和声音以实现通信、可访问性和媒体制作。

深入探讨

DNS 挑战赛由 Microsoft 于 2020 年发起,并重复举办了几年(通常在 INTERSPEECH 和 ICASSP 上),为团队提供了一个包含干净语音、噪声片段和综合混合噪声录音的大型标准化数据集。至关重要的是,它将评估从 PESQ 等较旧的信号数学转向人类听力分数,并学习了感知质量的预测因素。它还添加了现实世界的严酷条件:混响房间、非平稳噪声(打字、狗、警报器)、音调噪声以及模型必须抑制除注册目标说话者之外的所有人的个性化场景。通过发布数据、基线和通用测试集,实验室可以进行同类比较,并加速从过滤技巧向语音增强的端到端深度学习的转变。

技术洞察

条目通常将噪声波形的短时傅立叶变换馈送到预测时频掩模的循环或卷积网络中。将掩模乘以噪声频谱会衰减噪声主导的频段,同时保留语音主导的频段,然后逆 STFT 重建波形。实时规则限制了算法延迟(大约 40 毫秒),并且需要因果处理,因此模型在清理当前帧时无法查看未来的音频。

应对深度噪声抑制挑战

深度噪声抑制 (DNS) 挑战赛是一项由 Microsoft 举办的竞赛,旨在推动研究人员构建能够实时去除语音中背景噪声的神经网络。它设定了现代基准,为 Teams 和 Zoom 噪音消除等功能提供支持。深度噪声抑制挑战属于音频人工智能工作流程,可改变语音、音乐和声音以实现通信、可访问性和媒体制作。为了建立深入的理解,请将深度噪声抑制挑战视为一种操作模型,而不是单一功能:定义期望的结果,澄清假设,并将系统可以可靠地完成的任务与仍需要专家判断的任务分开。

在实践中,使用深度噪声抑制挑战的强大团队将质量、延迟和同意视为部署策略中同等重要的部分。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

它通过转录、旁白和语音界面提高了可访问性。与此同时,如果未征得同意,语音滥用和冒充风险就会增加。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

它通过转录、旁白和语音界面提高了可访问性。

它通过转录、旁白和语音界面提高了可访问性。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

媒体团队可以用更少的预算更快地交付精美的音频。

媒体团队可以用更少的预算更快地交付精美的音频。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

面向客户的系统可以处理更大规模的语音交互。

面向客户的系统可以处理更大规模的语音交互。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

深度噪声抑制挑战的未来

预计该框架将扩展到个性化和多模式抑制,其中嘴唇运动或说话者的声纹指导保留什么。耳塞和助听器的模型正在缩小以在设备上运行,全频段 48 kHz 处理正在成为标准,因此音乐和高频得以生存。重新合成干净语音(而不仅仅是掩盖噪音)的生成方法是一个活跃且有时存在争议的前沿领域。

现实世界的实施

Microsoft Teams 和其他视频通话应用程序中的实时背景噪音消除

在通勤或繁忙的咖啡馆期间,耳塞和耳机中的语音捕捉更加清晰

在自动转录或字幕之前预处理嘈杂的现场录音

提高助听器和助听设备的清晰度

实施模式

实践中的深度噪声抑制挑战

Microsoft Teams 和其他视频通话应用程序中的实时背景噪音消除。

Microsoft 团队和其他视频通话应用程序中的实时背景噪音消除 当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会获得更好的结果。

实践中的深度噪声抑制挑战

在通勤或繁忙的咖啡馆期间,耳塞和耳机中的语音捕捉更加清晰。

在通勤或繁忙的咖啡馆期间,通过耳塞和耳机捕获更清晰的语音 当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会获得更好的结果。

实践中的深度噪声抑制挑战

在自动转录或添加字幕之前对嘈杂的现场录音进行预处理。

在自动转录或字幕之前对嘈杂的现场录音进行预处理当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力提升和错误成本时,通常会得到更好的结果。

实践中的深度噪声抑制挑战

提高助听器和助听设备的清晰度。

提高助听器和辅助听力设备的清晰度 当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会获得更好的结果。

风险与防护栏

!

如果未征得同意,语音滥用和冒充风险就会增加。

!

由于口音、方言或嘈杂的环境,准确性可能会下降。

!

如果没有明确的标签,合成音频可能会被误认为是真实的语音。

实施路线图

1

获得语音捕获、克隆和重用的明确同意。

获得语音捕获、克隆和重用的明确同意。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

测试不同扬声器和背景条件下的质量。

测试不同扬声器和背景条件下的质量。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

定义人员必须审查或批准输出的时间。

定义人员必须审查或批准输出的时间。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

标记合成音频并保留来源记录以供问责。

标记合成音频并保留来源记录以供问责。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索