音频人工智能指南

使用变形金刚进行音乐标记

音乐标签使用 Transformer 模型来聆听歌曲并预测描述性标签,例如流派、情绪、乐器和节奏。

概述

音乐标签使用 Transformer 模型来聆听歌曲并预测描述性标签,例如流派、情绪、乐器和节奏。它支持跨庞大音乐目录的搜索、推荐和自动组织。

使用 Transformers 进行音乐标记位于音频 AI 工作流程中,可转换语音、音乐和声音以实现通信、可访问性和媒体制作。

深入探讨

音乐自动标记是一个多标签分类问题:一首曲目可以同时是“摇滚”、“活力”、“吉他”和“器乐”。 Transformer 通过将音频转换为频谱图(时频图像)并通过自注意力层提供它的补丁来解决这个问题,就像 Vision Transformer 处理图像补丁一样。音频频谱图转换器 (AST) 和 MERT 等模型可以学习整个音轨的长范围模式,捕捉合唱与相隔几分钟的主歌之间的关系。许多都是在数百万个未标记的剪辑上进行自我监督预训练,然后在 MagnaTagATune 或百万歌曲数据集等标记数据集上进行微调。由于标签并不相互排斥,因此最后一层使用 sigmoid 输出,根据平均精度和 ROC-AUC 等基准进行评分。

技术洞察

原始音频被转换为 log-Mel 频谱图,分成重叠的块,并线性嵌入位置编码。自注意力让每个补丁都权衡其他补丁,因此遥远的音乐事件会影响每个标签。与单标签图像分类器不同,音乐标签对每个标签应用一个 sigmoid,而不是一个 softmax,因为标签同时出现。自监督预训练(预测屏蔽音频标记)在对较小的标记集进行微调之前提供了强有力的表示。

使用 Transformers 掌握音乐标签

音乐标签使用 Transformer 模型来聆听歌曲并预测描述性标签,例如流派、情绪、乐器和节奏。它支持跨庞大音乐目录的搜索、推荐和自动组织。使用 Transformers 进行音乐标记位于音频 AI 工作流程中,可转换语音、音乐和声音以实现通信、可访问性和媒体制作。为了建立深入的理解,请将 Transformers 音乐标签视为一种操作模型,而不是单一功能:定义所需的结果,澄清假设,并将系统可以可靠地执行的操作与仍需要专家判断的操作分开。

在实践中,使用 Transformers 音乐标签的强大团队将质量、延迟和同意视为部署策略中同等重要的部分。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

它通过转录、旁白和语音界面提高了可访问性。与此同时,如果未征得同意,语音滥用和冒充风险就会增加。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

它通过转录、旁白和语音界面提高了可访问性。

它通过转录、旁白和语音界面提高了可访问性。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

媒体团队可以用更少的预算更快地交付精美的音频。

媒体团队可以用更少的预算更快地交付精美的音频。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

面向客户的系统可以处理更大规模的语音交互。

面向客户的系统可以处理更大规模的语音交互。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

变形金刚音乐标签的未来

标签与自然语言理解相结合,因此您可以搜索“带有乙烯基爆裂声的梦幻低保真音乐用于学习”,而不是固定的流派按钮。 CLAP 等对比音频文本模型将音乐和描述集中在一个空间中,从而实现训练中从未见过的零样本标签。期待更丰富、更精细的标签、更好地处理融合类型以及设备上的隐私标记。围绕受版权目录培训的权利和归属辩论将决定这些模型可以使用哪些数据。

现实世界的实施

自动生成流派和情绪标签,以便流媒体服务可以构建“焦点”或“锻炼”播放列表

让音乐库为搜索同步许可的视频编辑者提供“欢快的原声吉他”曲目

为推荐引擎提供动力,以找到超出用户明确评分范围的声音相似歌曲

通过检测到的乐器、调性和速度自动组织制作人的样本集合

实施模式

使用 Transformers 进行音乐标记的实践

自动生成流派和情绪标签,以便流媒体服务可以构建“焦点”或“锻炼”播放列表。

自动生成流派和情绪标签,以便流媒体服务可以构建“焦点”或“锻炼”播放列表。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会获得更好的结果。

使用 Transformers 进行音乐标记的实践

让音乐库为搜索同步许可的视频编辑者提供“欢快的原声吉他”曲目。

让音乐库为搜索同步许可的视频编辑者提供“欢快的原声吉他”曲目。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会获得更好的结果。

使用 Transformers 进行音乐标记的实践

为推荐引擎提供动力,以找到超出用户明确评分范围的声音相似歌曲。

为推荐引擎提供动力,以找到超出用户明确评分范围的声音相似歌曲。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

使用 Transformers 进行音乐标记的实践

通过自动检测到的乐器、调性和节奏来组织制作人的样本集合。

通过检测到的乐器、调和节奏自动组织制作人的样本集合 当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力增益和错误成本时,通常会获得更好的结果。

风险与防护栏

!

如果未征得同意,语音滥用和冒充风险就会增加。

!

由于口音、方言或嘈杂的环境,准确性可能会下降。

!

如果没有明确的标签,合成音频可能会被误认为是真实的语音。

实施路线图

1

获得语音捕获、克隆和重用的明确同意。

获得语音捕获、克隆和重用的明确同意。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

测试不同扬声器和背景条件下的质量。

测试不同扬声器和背景条件下的质量。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

定义人员必须审查或批准输出的时间。

定义人员必须审查或批准输出的时间。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

标记合成音频并保留来源记录以供问责。

标记合成音频并保留来源记录以供问责。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索