音频人工智能指南

平均意见得分评估

平均意见分数 (MOS) 是人类听众的 1 到 5 平均评分，用于衡量合成或传输的音频声音的好坏程度。

概述

平均意见分数 (MOS) 是人类听众的 1 到 5 平均评分，用于衡量合成或传输的音频声音的好坏程度。它是判断文本转语音、语音克隆和音频编解码器的黄金标准，因为最终观众是人类，而不是机器。

平均意见评分评估位于音频人工智能工作流程中，可将语音、音乐和声音转化为通信、可访问性和媒体制作。

深入探讨

MOS 来自 ITU 标准化的电话网络测试（建议 P.800）。听众听到简短的音频片段，并按五分制对每个片段进行评分：5 = 优秀，4 = 良好，3 = 一般，2 = 差，1 = 差。对许多剪辑和听众的许多评分进行平均即可得出 MOS。变体针对特定问题：MOS-LQS 用于总体质量，比较 MOS (CMOS) 用于 A/B 偏好，MUSHRA 用于细粒度编解码器比较。在现代人工智能语音研究中，MOS 是 WaveNet、Tacotron 和 VALL-E 等系统的主要指标。由于人工评估缓慢且成本高昂，预测 MOS 模型（DNSMOS、UTMOS、NISQA）现在可以自动估计分数，尽管人工 MOS 仍然是值得信赖的参考。

技术洞察

适当的 MOS 研究控制聆听条件：校准耳机、固定响度、随机剪辑顺序以及每个样本足够的评估者（通常超过 20 个），因此平均值在统计上是稳定的。研究人员报告了 95% 的置信区间，因为 0.1 MOS 间隙可能是噪声。至关重要的是，MOS 并不是绝对的物理测量；它以该会话中的特定剪辑和说明为基础，因此不同研究的分数不能直接比较。

掌握平均意见分数评估

为了建立深入的理解，请将平均意见得分评估视为一种操作模型，而不是单个特征。定义期望的结果，澄清假设，并将系统可以可靠地完成的任务与仍需要专家判断的任务分开。

在实践中，使用平均意见评分评估的强大团队将质量、延迟和同意视为部署策略中同等重要的部分。他们记录明确的成功标准，根据实际数据和工作流程进行测试，并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

它通过转录、旁白和语音界面提高了可访问性。与此同时，如果未征得同意，语音滥用和冒充风险就会增加。最具弹性的方法是将实验速度与治理规则结合起来：运行试点、捕获证据、发布决策日志，并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

它通过转录、旁白和语音界面提高了可访问性。

它通过转录、旁白和语音界面提高了可访问性。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

媒体团队可以用更少的预算更快地交付精美的音频。

媒体团队可以用更少的预算更快地交付精美的音频。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

面向客户的系统可以处理更大规模的语音交互。

面向客户的系统可以处理更大规模的语音交互。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

平均意见评分评估的未来

自动 MOS 预测器正在快速改进，并在大型人类评级语料库上进行训练，使团队可以在最终的人类测试之前以低廉的成本筛选数千个样本。期望有更丰富、多维的分数来区分自然度、清晰度、说话者相似度和情感，而不是一个模糊的数字。随着生成语音接近人类水平，评估正在转向偏好测试和检测微妙的伪影，因为原始 MOS 接近 4.5 饱和并且无法再区分顶级系统。

现实世界的实施

通过要求听众对自然度进行评分 1-5 来比较导航应用程序的两种文本转语音

使用听众评级以相同比特率对新的神经音频编解码器与 MP3 进行基准测试

在有声读物产品中部署之前验证语音克隆模型的输出质量

电信工程师对新 VoIP 网络的通话质量进行评分，以证明其满足 4.0 MOS 目标

实施模式

实践中的平均意见得分评估

通过要求听众对自然度进行评分 1-5 来比较导航应用程序的两种文本转语音。

当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时，通常会获得更好的结果。

实践中的平均意见得分评估

使用听众评分，以相同比特率对新的神经音频编解码器与 MP3 进行基准测试。

当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时，通常会获得更好的结果。

实践中的平均意见得分评估

在部署到有声读物产品中之前验证语音克隆模型的输出质量。

当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时，通常会获得更好的结果。

实践中的平均意见得分评估

电信工程师对新 VoIP 网络的通话质量进行评分，以证明其满足 4.0 MOS 目标。

当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时，通常会获得更好的结果。

风险与防护栏

如果未征得同意，语音滥用和冒充风险就会增加。

由于口音、方言或嘈杂的环境，准确性可能会下降。

如果没有明确的标签，合成音频可能会被误认为是真实的语音。

实施路线图

获得语音捕获、克隆和重用的明确同意。

将此视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

测试不同扬声器和背景条件下的质量。

将此视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

定义人员必须审查或批准输出的时间。

将此视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

标记合成音频并保留来源记录以供问责。

将此视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

不断探索

语音人工智能

了解语音系统如何识别和生成语言。

阅读指南

人工智能音乐

了解现代音乐生成工具和限制。

阅读指南

Check your understanding

Test yourself: take the Mean Opinion Score Evaluation quiz

Start quiz →

平均意见得分评估

概述

深入探讨

技术洞察

掌握平均意见分数评估

战略影响

平均意见评分评估的未来

现实世界的实施

实施模式

实践中的平均意见得分评估

实践中的平均意见得分评估

实践中的平均意见得分评估

实践中的平均意见得分评估

风险与防护栏

实施路线图

不断探索

语音人工智能

人工智能音乐

Related guides