音频人工智能指南

打开-分离音乐分离

Open-Unmix (UMX) 是一种开源深度学习系统,它将歌曲分成几个部分:人声、鼓、贝斯和其他乐器。

概述

Open-Unmix (UMX) 是一种开源深度学习系统,它将歌曲分成几个部分:人声、鼓、贝斯和其他乐器。它作为可复制的参考质量基线很重要,使研究人员、音乐家和业余爱好者能够实现音乐源分离。

Open-Unmix 音乐分离位于音频 AI 工作流程中,可转换语音、音乐和声音以实现通信、可访问性和媒体制作。

深入探讨

Open-Unmix 由 Stoter、Uhlich、Liutkus 和 Mitsufuji 于 2019 年发布,是在 PyTorch(带有 TensorFlow 和 NNabla 端口)中特意构建的透明、记录良好的基线。它根据混合物的幅度谱图对每个目标茎训练一个模型。其核心是一个由全连接层包裹的三层双向 LSTM,它可以预测目标源的频谱掩模。由于它按幅度进行操作,因此它会重复使用混合物的相位并通过逆 STFT 重建主干,并可选择使用多通道维纳滤波器进行细化。在开放的 MUSDB18 数据集上进行训练,它不会追逐排行榜的最高分数;其目标是清晰度和可重复性,为社区提供值得信赖的比较点和基础。

技术洞察

每个茎都有自己的网络对输入幅度谱图进行操作。频率仓通过致密层进行标准化和降维,双向 LSTM 捕获两个方向的时间上下文,进一步的致密层扩展到全频率分辨率以产生软掩模。将掩模乘以混合幅度即可得到估计的源;原始相被重复使用,维纳滤波器可以联合精炼所有茎以获得更清晰的结果。

掌握 Open-Unmix 音乐分离

Open-Unmix (UMX) 是一种开源深度学习系统,它将歌曲分成几个部分:人声、鼓、贝斯和其他乐器。它作为可复制的参考质量基线很重要,使研究人员、音乐家和业余爱好者能够实现音乐源分离。 Open-Unmix 音乐分离位于音频 AI 工作流程中,可转换语音、音乐和声音以实现通信、可访问性和媒体制作。为了建立深入的理解,请将 Open-Unmix 音乐分离视为一种操作模型,而不是单一功能:定义所需的结果,澄清假设,并将系统可以可靠地完成的操作与仍需要专家判断的操作分开。

在实践中,使用 Open-Unmix Music Separation 的强大团队将质量、延迟和同意视为部署策略中同等重要的部分。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

它通过转录、旁白和语音界面提高了可访问性。与此同时,如果未征得同意,语音滥用和冒充风险就会增加。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

它通过转录、旁白和语音界面提高了可访问性。

它通过转录、旁白和语音界面提高了可访问性。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

媒体团队可以用更少的预算更快地交付精美的音频。

媒体团队可以用更少的预算更快地交付精美的音频。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

面向客户的系统可以处理更大规模的语音交互。

面向客户的系统可以处理更大规模的语音交互。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

Open-Unmix 音乐分离的未来

Open-Unmix 的原始质量已被 Demucs 和混合频谱图波形系统等波形模型超越,但它作为清晰、可修改的参考的作用使其与教学和快速原型设计保持相关性。预计将继续在教育中使用并作为健全性检查基线,而更广泛的领域将朝着更高保真度的混合和基于变压器的分离器以及分离更多、更细粒度的仪器类别发展。

现实世界的实施

提取孤立的音轨来制作歌曲的卡拉 OK 或器乐版本。

拉出鼓或贝斯杆供制作人重新混音和采样。

作为评估 MUSDB18 上新分离模型的可重复研究基线。

让音乐学生分离出一种乐器来研究它在混音中的部分。

实施模式

实践中的开放-分离音乐分离

提取孤立的音轨来制作歌曲的卡拉 OK 或器乐版本。

提取孤立的人声轨道来制作歌曲的卡拉 OK 或器乐版本 当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会获得更好的结果。

实践中的开放-分离音乐分离

拉出鼓或贝斯杆供制作人重新混音和采样。

制作人拉出鼓或贝司杆进行混音和采样当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会得到更好的结果。

实践中的开放-分离音乐分离

作为评估 MUSDB18 上新分离模型的可重复研究基线。

作为评估 MUSDB18 上新分离模型的可重复研究基线,当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

实践中的开放-分离音乐分离

让音乐学生分离出一种乐器来研究它在混音中的部分。

让音乐学生分离一种乐器来研究它在混音中的作用 当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会得到更好的结果。

风险与防护栏

!

如果未征得同意,语音滥用和冒充风险就会增加。

!

由于口音、方言或嘈杂的环境,准确性可能会下降。

!

如果没有明确的标签,合成音频可能会被误认为是真实的语音。

实施路线图

1

获得语音捕获、克隆和重用的明确同意。

获得语音捕获、克隆和重用的明确同意。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

测试不同扬声器和背景条件下的质量。

测试不同扬声器和背景条件下的质量。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

定义人员必须审查或批准输出的时间。

定义人员必须审查或批准输出的时间。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

标记合成音频并保留来源记录以供问责。

标记合成音频并保留来源记录以供问责。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索