音频人工智能指南

扩散频谱图扩散

Riffusion 是一种巧妙的技巧,它通过将声音视为图片来生成音乐:它微调稳定扩散图像模型以绘制频谱图,然后将这些图像转换回音频。

概述

Riffusion 是一种巧妙的技巧,它通过将声音视为图片来生成音乐:它微调稳定扩散图像模型以绘制频谱图,然后将这些图像转换回音频。这很重要,因为它表明为一种媒体(图像)构建的工具可以产生另一种媒体(音乐),几乎不需要新的架构。

Riffusion Spectrogram Diffusion 位于音频 AI 工作流程中,可转换语音、音乐和声音以实现通信、可访问性和媒体制作。

深入探讨

Riffusion 最初是一个业余爱好项目,由 Seth Forsgren 和 Hayk Martiros 于 2022 年底发布。核心技巧:频谱图是一个二维图像,其中水平轴是时间,垂直轴是频率,像素亮度是响度。由于稳定扩散已经根据文本提示生成图像,因此创建者在数千个配对的频谱图-文本示例上对其进行了微调。用“时髦爵士贝司”提示它,它会将随机噪音降噪成该声音的频谱图。为了制作可播放的音频,Riffusion 通过 Griffin-Lim 算法运行频谱图,重建丢失的相位信息。由于扩散可以在提示之间平滑插入,因此 Riffusion 还可以在连续剪辑中将一种风格转变为另一种风格,无缝循环。

技术洞察

Riffusion 未改变地重复使用潜在扩散管道:U-Net 迭代地从以 CLIP 文本嵌入为条件的潜在图像中去除高斯噪声。唯一的特定领域工作是频谱图表示(梅尔标度、对数功率)和 Griffin-Lim 相位重建,将预测的幅度频谱图转回波形。编码过程中相位被丢弃,因此 Griffin-Lim 的迭代估计是特征“水样”伪影的主要来源。

掌握扩散谱图扩散

Riffusion 是一种巧妙的技巧,它通过将声音视为图片来生成音乐:它微调稳定扩散图像模型以绘制频谱图,然后将这些图像转换回音频。这很重要,因为它表明为一种媒体(图像)构建的工具可以产生另一种媒体(音乐),几乎不需要新的架构。 Riffusion Spectrogram Diffusion 位于音频 AI 工作流程中,可转换语音、音乐和声音以实现通信、可访问性和媒体制作。为了建立深入的理解,请将 Riffusion Spectrogram Diffusion 视为一种操作模型,而不是单个功能:定义所需的结果,澄清假设,并将系统可以可靠地执行的操作与仍需要专家判断的操作分开。

在实践中,使用 Riffusion Spectrogram Diffusion 的强大团队将质量、延迟和同意视为部署策略中同等重要的部分。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

它通过转录、旁白和语音界面提高了可访问性。与此同时,如果未征得同意,语音滥用和冒充风险就会增加。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

它通过转录、旁白和语音界面提高了可访问性。

它通过转录、旁白和语音界面提高了可访问性。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

媒体团队可以用更少的预算更快地交付精美的音频。

媒体团队可以用更少的预算更快地交付精美的音频。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

面向客户的系统可以处理更大规模的语音交互。

面向客户的系统可以处理更大规模的语音交互。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

扩散频谱图扩散的未来

Riffusion 证明了频谱图作为图像的桥梁是有效的,这个想法现在存在于更大的音频系统中,并成为 Riffusion 公司。预计未来的工具将用学习神经声码器取代有损的 Griffin-Lim,以实现更清晰的相位,并将频谱图扩散与潜在音频编解码器相结合。更广泛的教训是,图像模型可以重定向到新的模式,继续影响研究人员如何从现有的预训练骨干网络引导音频和视频生成器。

现实世界的实施

根据“紧张的合成波追逐”等文本提示为独立视频游戏生成短循环背景曲目

在两种音乐风格之间平滑过渡,例如在单个剪辑中将“热带浩室音乐”与“低保真嘻哈音乐”融合在一起

为 YouTube 视频和播客制作免版税的环境音乐床,无需许可费

对旋律或节奏的想法进行原型设计,然后音乐家在数字音频工作站中正确地重新录制

实施模式

扩散频谱图扩散实践

根据“紧张的合成波追逐”等文本提示为独立视频游戏生成短循环背景曲目。

通过“紧张的合成波追逐”等文本提示为独立视频游戏生成短循环背景曲目当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

扩散频谱图扩散实践

在两种音乐风格之间平滑过渡,例如在一个剪辑中将“热带浩室音乐”与“低保真嘻哈音乐”融为一体。

在两种音乐风格之间平滑过渡,例如在单个剪辑中将“热带浩室”与“低保真嘻哈”融合在一起 团队在预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会获得更好的结果。

扩散频谱图扩散实践

为 YouTube 视频和播客制作免版税的环境音乐床,无需许可费。

为 YouTube 视频和播客制作免版税的环境音乐床,无需支付许可费 团队在预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会获得更好的结果。

扩散频谱图扩散实践

对旋律或节奏的想法进行原型设计,然后音乐家在数字音频工作站中正确地重新录制。

对旋律或节奏的想法进行原型设计,然后由音乐家在数字音频工作站中正确地重新录制。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。

风险与防护栏

!

如果未征得同意,语音滥用和冒充风险就会增加。

!

由于口音、方言或嘈杂的环境,准确性可能会下降。

!

如果没有明确的标签,合成音频可能会被误认为是真实的语音。

实施路线图

1

获得语音捕获、克隆和重用的明确同意。

获得语音捕获、克隆和重用的明确同意。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

测试不同扬声器和背景条件下的质量。

测试不同扬声器和背景条件下的质量。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

定义人员必须审查或批准输出的时间。

定义人员必须审查或批准输出的时间。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

标记合成音频并保留来源记录以供问责。

标记合成音频并保留来源记录以供问责。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索