音訊人工智慧指南

擴散頻譜圖擴散

Riffusion 是一種巧妙的技巧,它透過將聲音視為圖片來產生音樂:它微調穩定擴散影像模型以繪製頻譜圖,然後將這些影像轉換回音訊。

概述

Riffusion 是一種巧妙的技巧,它透過將聲音視為圖片來產生音樂:它微調穩定擴散影像模型以繪製頻譜圖,然後將這些影像轉換回音訊。這很重要,因為它表明為一種媒體(圖像)構建的工具可以產生另一種媒體(音樂),幾乎不需要新的架構。

Riffusion Spectrogram Diffusion 位於音訊 AI 工作流程中,可轉換語音、音樂和聲音以實現通訊、可存取性和媒體製作。

深入探討

Riffusion 最初是一個業餘愛好項目,由 Seth Forsgren 和 Hayk Martiros 於 2022 年底發布。核心技巧:頻譜圖是一個二維影像,其中水平軸是時間,垂直軸是頻率,像素亮度是響度。由於穩定擴散已經根據文字提示生成圖像,因此創建者在數千個配對的頻譜圖-文字範例上對其進行了微調。用「時髦爵士貝斯」提示它,它會將隨機雜訊降噪成該聲音的頻譜圖。為了製作可播放的音頻,Riffusion 透過 Griffin-Lim 演算法運行頻譜圖,重建遺失的相位資訊。由於擴散可以在提示之間平滑插入,因此 Riffusion 還可以在連續剪輯中將一種風格轉變為另一種風格,無縫循環。

技術洞察

Riffusion 未改變地重複使用潛在擴散管道:U-Net 迭代地從以 CLIP 文字嵌入為條件的潛在影像中去除高斯雜訊。唯一的特定領域工作是頻譜圖表示(梅爾標度、對數功率)和 Griffin-Lim 相位重建,將預測的振幅頻譜圖轉回波形。編碼過程中相位被丟棄,因此 Griffin-Lim 的迭代估計是特徵「水樣」偽影的主要來源。

掌握擴散譜圖擴散

Riffusion 是一種巧妙的技巧,它透過將聲音視為圖片來產生音樂:它微調穩定擴散影像模型以繪製頻譜圖,然後將這些影像轉換回音訊。這很重要,因為它表明為一種媒體(圖像)構建的工具可以產生另一種媒體(音樂),幾乎不需要新的架構。 Riffusion Spectrogram Diffusion 位於音訊 AI 工作流程中,可轉換語音、音樂和聲音以實現通訊、可存取性和媒體製作。為了建立深入的理解,請將 Riffusion Spectrogram Diffusion 視為一種操作模型,而不是單一功能:定義所需的結果,澄清假設,並將系統可以可靠地執行的操作與仍需要專家判斷的操作分開。

在實踐中,使用 Riffusion Spectrogram Diffusion 的強大團隊將品質、延遲和同意視為部署策略中同等重要的部分。他們記錄明確的成功標準,根據實際數據和工作流程進行測試,並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

它透過轉錄、旁白和語音介面提高了可訪問性。同時,如果未徵得同意,語音濫用和冒充風險就會增加。最具彈性的方法是將實驗速度與治理規則結合:運行試點、捕獲證據、發布決策日誌,並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

它透過轉錄、旁白和語音介面提高了可訪問性。

它透過轉錄、旁白和語音介面提高了可訪問性。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

媒體團隊可以用更少的預算更快地交付精美的音訊。

媒體團隊可以用更少的預算更快地交付精美的音訊。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

面向客戶的系統可以處理更大規模的語音互動。

面向客戶的系統可以處理更大規模的語音互動。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

擴散頻譜圖擴散的未來

Riffusion 證明了頻譜圖作為影像的橋樑是有效的,這個想法現在存在於更大的音頻系統中,並成為 Riffusion 公司。預計未來的工具將用學習神經聲碼器取代有損的 Griffin-Lim,以實現更清晰的相位,並將頻譜圖擴散與潛在音頻編解碼器相結合。更廣泛的教訓是,影像模型可以重定向到新的模式,繼續影響研究人員如何從現有的預訓練骨幹網路引導音訊和視訊產生器。

現實世界的實施

根據“緊張的合成波追逐”等文字提示為獨立視頻遊戲生成短循環背景曲目

在兩種音樂風格之間平滑過渡,例如在單一剪輯中將“熱帶浩室音樂”與“低保真嘻哈音樂”融合在一起

為 YouTube 影片和播客製作免版稅的環境音樂床,無需許可費

對旋律或節奏的想法進行原型設計,然後音樂家在數位音訊工作站中正確地重新錄製

實施模式

擴散頻譜圖擴散實踐

根據“緊張的合成波追逐”等文字提示為獨立視頻遊戲生成短循環背景曲目。

透過「緊張的合成波追逐」等文字提示為獨立電玩遊戲產生短循環背景曲目當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移跟踪生產力增益和錯誤成本時,通常會獲得更好的結果。

擴散頻譜圖擴散實踐

在兩種音樂風格之間平滑過渡,例如在一個剪輯中將“熱帶浩室音樂”與“低保真嘻哈音樂”融為一體。

在兩種音樂風格之間平滑過渡,例如在單個剪輯中將“熱帶浩室”與“低保真嘻哈”融合在一起 團隊在預先定義質量閾值、為邊緣情況保留人工升級路徑並跟踪一段時間內的生產力提升和錯誤成本時,通常會獲得更好的結果。

擴散頻譜圖擴散實踐

為 YouTube 影片和播客製作免版稅的環境音樂床,無需許可費。

為 YouTube 影片和播客製作免版稅的環境音樂床,無需支付許可費 團隊在預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時,通常會獲得更好的結果。

擴散頻譜圖擴散實踐

對旋律或節奏的想法進行原型設計,然後音樂家在數位音訊工作站中正確地重新錄製。

對旋律或節奏的想法進行原型設計,然後由音樂家在數位音訊工作站中正確地重新錄製。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會得到更好的結果。

風險與防護欄

!

如果未徵得同意,語音濫用和冒充風險就會增加。

!

由於口音、方言或嘈雜的環境,準確性可能會下降。

!

如果沒有明確的標籤,合成音訊可能會被誤認為是真實的語音。

實施路線圖

1

獲得語音捕獲、克隆和重用的明確同意。

獲得語音捕獲、克隆和重用的明確同意。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

2

測試不同揚聲器和背景條件下的品質。

測試不同揚聲器和背景條件下的品質。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

3

定義人員必須審查或批准輸出的時間。

定義人員必須審查或批准輸出的時間。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

4

標記合成音訊並保留來源記錄以供問責。

標記合成音訊並保留來源記錄以供問責。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

不斷探索