音频人工智能指南

点唱机

Jukebox 是 OpenAI 的 2020 年神经网络,可生成原始音乐音频 - 包含歌声、乐器,甚至特定艺术家风格的歌词。

概述

Jukebox 是 OpenAI 的 2020 年神经网络,可生成原始音乐音频 - 包含歌声、乐器,甚至特定艺术家风格的歌词。这是一个里程碑式的证据,证明人工智能可以模拟歌曲长度音乐的实际波形,而不仅仅是音符。

Jukebox 位于音频 AI 工作流程中,可转换语音、音乐和声音以实现通信、可访问性和媒体制作。

深入探讨

Jukebox 由 OpenAI 于 2020 年 4 月发布,它以原始音频而不是符号音符的形式生成音乐,这意味着它会产生包括人声在内的实际声音。它接受了从网络上抓取的大约 120 万首歌曲(大约一半是英语)的训练,并搭配来自 LyricWiki 的歌词和元数据。你可以根据流派、艺术家风格和歌词来调节它,它就会像那个艺术家那样以可识别的方式(如果模糊的话)唱歌。输出持续几分钟。问题在于速度和保真度:生成速度非常慢,渲染一分钟的音频需要大约九个小时,而且结果质量低沉、嘈杂。自动点唱机是一项研究,而不是一个精致的产品,但它重塑了人们对可能发生的事情的期望。

技术洞察

Jukebox 使用 VQ-VAE 自动编码器以三种时间分辨率压缩原始音频,将长波形转换为更短的离散代码序列。然后,自回归变压器根据艺术家、流派和歌词一次预测这些代码,而上采样器则添加高频细节。将底层代码解码回 44.1 kHz 波形是生成速度如此缓慢的原因,因为必须顺序生成数百万个音频样本。

掌握点唱机

Jukebox 是 OpenAI 的 2020 年神经网络,可生成原始音乐音频 - 包含歌声、乐器,甚至特定艺术家风格的歌词。这是一个里程碑式的证据,证明人工智能可以模拟歌曲长度音乐的实际波形,而不仅仅是音符。 Jukebox 位于音频 AI 工作流程中,可转换语音、音乐和声音以实现通信、可访问性和媒体制作。为了建立深入的理解,请将 Jukebox 视为一种操作模型,而不是单一功能:定义期望的结果,澄清假设,并将系统可以可靠地执行的操作与仍需要专家判断的操作分开。

在实践中,使用 Jukebox 的强大团队将质量、延迟和同意视为部署策略中同等重要的部分。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

它通过转录、旁白和语音界面提高了可访问性。与此同时,如果未征得同意,语音滥用和冒充风险就会增加。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

它通过转录、旁白和语音界面提高了可访问性。

它通过转录、旁白和语音界面提高了可访问性。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

媒体团队可以用更少的预算更快地交付精美的音频。

媒体团队可以用更少的预算更快地交付精美的音频。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

面向客户的系统可以处理更大规模的语音交互。

面向客户的系统可以处理更大规模的语音交互。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

自动点唱机的未来

Jukebox 本身现在在很大程度上是一个历史里程碑,被更快的传播和潜在音频模型所取代,例如 Suno 和 Udio 背后的模型,它们可以在几秒钟内生成接近 CD 质量的歌曲。它的核心思想——离散音频标记和歌词调节——在现代系统中得以延续。预计未来的原始音频模型将继续缩短生成时间、提高声音清晰度并添加精细控制,而 Jukebox 最初提出的有关受版权录音培训的版权问题只会越来越响亮。

现实世界的实施

研究人员使用 Jukebox 作为参考架构,研究神经网络如何对长格式原始音频和歌声进行建模。

音乐家和爱好者创作出怪异、低保真的“人工智能翻唱”,以所选艺术家的粗犷风格演唱新歌词。

教育工作者展示了从 MIDI 风格的音符生成到带有人声的完整原始音频合成的飞跃。

声音设计师和实验艺术家将 Jukebox 的朦胧、梦幻般的纹理作为混音和拼贴的原材料。

实施模式

自动点唱机的实践

研究人员使用 Jukebox 作为参考架构,研究神经网络如何对长格式原始音频和歌声进行建模。

研究人员使用 Jukebox 作为参考架构,研究神经网络如何对长格式原始音频和歌声进行建模。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会获得更好的结果。

自动点唱机的实践

音乐家和爱好者创作出怪异、低保真的“人工智能翻唱”,以所选艺术家的粗犷风格演唱新歌词。

音乐家和爱好者制作怪异的低保真“人工智能翻唱”,以所选艺术家的粗略风格演唱新歌词。当团队预先定义质量阈值、为边缘情况保留人性化的升级路径、并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。

自动点唱机的实践

教育工作者展示了从 MIDI 风格的音符生成到带有人声的完整原始音频合成的飞跃。

教育工作者展示从 MIDI 风格的音符生成到带有人声的完整原始音频合成的飞跃。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

自动点唱机的实践

声音设计师和实验艺术家将 Jukebox 的朦胧、梦幻般的纹理作为混音和拼贴的原材料。

声音设计师和实验艺术家将 Jukebox 的朦胧、梦幻般的纹理作为混音和拼贴的原材料。当团队预先定义质量阈值、为边缘情况保留人性化的升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。

风险与防护栏

!

如果未征得同意,语音滥用和冒充风险就会增加。

!

由于口音、方言或嘈杂的环境,准确性可能会下降。

!

如果没有明确的标签,合成音频可能会被误认为是真实的语音。

实施路线图

1

获得语音捕获、克隆和重用的明确同意。

获得语音捕获、克隆和重用的明确同意。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

测试不同扬声器和背景条件下的质量。

测试不同扬声器和背景条件下的质量。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

定义人员必须审查或批准输出的时间。

定义人员必须审查或批准输出的时间。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

标记合成音频并保留来源记录以供问责。

标记合成音频并保留来源记录以供问责。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索