HƯỚNG DẪN AI âm thanh

Khuếch tán phổ khuếch tán

Riffusion là một cách hack thông minh tạo ra âm nhạc bằng cách xử lý âm thanh như một hình ảnh: nó tinh chỉnh mô hình hình ảnh Khuếch tán ổn định để vẽ các biểu đồ phổ, sau đó chuyển đổi những hình ảnh đó thành âm thanh.

Tổng quan

Riffusion là một cách hack thông minh tạo ra âm nhạc bằng cách xử lý âm thanh như một hình ảnh: nó tinh chỉnh mô hình hình ảnh Khuếch tán ổn định để vẽ các biểu đồ phổ, sau đó chuyển đổi những hình ảnh đó thành âm thanh. Nó quan trọng vì nó cho thấy một công cụ được xây dựng cho một phương tiện (hình ảnh) có thể tạo ra một phương tiện khác (âm nhạc) mà hầu như không có kiến ​​trúc mới.

Riffusion Spectrogram Diffusion nằm trong quy trình làm việc của âm thanh-AI giúp biến đổi giọng nói, âm nhạc và âm thanh để liên lạc, khả năng tiếp cận và sản xuất phương tiện truyền thông.

Lặn sâu

Riffusion, được phát hành vào cuối năm 2022 bởi Seth Forsgren và Hayk Martiros, bắt đầu như một dự án sở thích. Thủ thuật cốt lõi: biểu đồ phổ là hình ảnh 2D trong đó trục hoành là thời gian, trục dọc là tần số và độ sáng pixel là âm lượng. Vì Khuếch tán ổn định đã tạo hình ảnh từ lời nhắc văn bản nên người sáng tạo đã tinh chỉnh nó trên hàng nghìn ví dụ văn bản phổ đồ thị được ghép nối. Nhắc nó bằng 'âm trầm nhạc jazz vui nhộn' và nó sẽ khử tiếng ồn ngẫu nhiên thành biểu đồ phổ của âm thanh đó. Để tạo ra âm thanh có thể phát được, Riffusion chạy biểu đồ phổ thông qua thuật toán Griffin-Lim để tái tạo lại thông tin pha bị thiếu. Vì tính năng khuếch tán có thể nội suy mượt mà giữa các lời nhắc nên Riffusion cũng có thể biến phong cách này thành phong cách khác qua một clip liên tục, lặp lại liền mạch.

Hiểu biết kỹ thuật

Riffusion tái sử dụng đường ống khuếch tán tiềm ẩn không thay đổi: U-Net lặp đi lặp lại loại bỏ nhiễu Gaussian khỏi hình ảnh tiềm ẩn được điều chỉnh bằng cách nhúng văn bản CLIP. Công việc dành riêng cho miền duy nhất là biểu diễn biểu đồ phổ (thang mel, công suất log) và tái tạo pha Griffin-Lim để biến biểu đồ phổ cường độ dự đoán trở lại dạng sóng. Pha bị loại bỏ trong quá trình mã hóa, do đó, ước tính lặp lại của Griffin-Lim là nguồn chính tạo ra các tạo tác 'chảy nước' đặc trưng.

Làm chủ sự khuếch tán quang phổ khuếch tán

Riffusion là một cách hack thông minh tạo ra âm nhạc bằng cách xử lý âm thanh như một hình ảnh: nó tinh chỉnh mô hình hình ảnh Khuếch tán ổn định để vẽ các biểu đồ phổ, sau đó chuyển đổi những hình ảnh đó thành âm thanh. Nó quan trọng vì nó cho thấy một công cụ được xây dựng cho một phương tiện (hình ảnh) có thể tạo ra một phương tiện khác (âm nhạc) mà hầu như không có kiến ​​trúc mới. Riffusion Spectrogram Diffusion nằm trong quy trình làm việc của âm thanh-AI giúp biến đổi giọng nói, âm nhạc và âm thanh để liên lạc, khả năng tiếp cận và sản xuất phương tiện truyền thông. Để xây dựng sự hiểu biết sâu sắc, hãy coi Khuếch tán Sơ đồ phổ Riffusion như một mô hình vận hành chứ không phải một tính năng duy nhất: xác định kết quả mong muốn, làm rõ các giả định và tách biệt những gì hệ thống có thể làm một cách đáng tin cậy với những gì vẫn cần đến sự đánh giá của chuyên gia.

Trong thực tế, các nhóm mạnh sử dụng Riffusion Spectrogram Diffusion coi chất lượng, độ trễ và sự đồng ý là những phần quan trọng không kém trong chiến lược triển khai. Họ ghi lại các tiêu chí thành công rõ ràng, kiểm tra dựa trên dữ liệu và quy trình làm việc thực tế, đồng thời lặp lại dựa trên các kiểu thất bại được quan sát thay vì chiến thắng điểm chuẩn một lần. Đây là nơi sự hiểu biết về mặt lý thuyết biến thành khả năng bền vững trên toàn bộ sản phẩm, chính sách và hoạt động.

Nó cải thiện khả năng tiếp cận thông qua phiên âm, tường thuật và giao diện giọng nói. Đồng thời, nguy cơ lạm dụng giọng nói và mạo danh sẽ tăng lên khi không có sự đồng ý. Cách tiếp cận linh hoạt nhất là kết hợp tốc độ thử nghiệm với kỷ luật quản trị: chạy thử nghiệm, thu thập bằng chứng, xuất bản nhật ký quyết định và liên tục cập nhật các biện pháp bảo vệ khi hành vi của mô hình, kỳ vọng của người dùng và các yêu cầu pháp lý phát triển.

Tác động chiến lược

Nó cải thiện khả năng tiếp cận thông qua phiên âm, tường thuật và giao diện giọng nói.

Nó cải thiện khả năng tiếp cận thông qua phiên âm, tường thuật và giao diện giọng nói. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Các nhóm truyền thông có thể gửi âm thanh tinh tế nhanh hơn với ngân sách nhỏ hơn.

Các nhóm truyền thông có thể gửi âm thanh tinh tế nhanh hơn với ngân sách nhỏ hơn. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Các hệ thống hướng tới khách hàng có thể xử lý các tương tác bằng giọng nói ở quy mô lớn hơn.

Các hệ thống hướng tới khách hàng có thể xử lý các tương tác bằng giọng nói ở quy mô lớn hơn. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Tương lai của khuếch tán quang phổ khuếch tán

Riffusion đã chứng minh rằng cầu nối quang phổ dưới dạng hình ảnh hoạt động và ý tưởng đó hiện tồn tại bên trong các hệ thống âm thanh lớn hơn và công ty Riffusion đã trở thành. Mong đợi các công cụ trong tương lai sẽ thay thế Griffin-Lim bị mất dữ liệu bằng bộ phát âm thần kinh đã học để có pha sạch hơn và kết hợp khuếch tán biểu đồ phổ với codec âm thanh tiềm ẩn. Bài học rộng hơn, rằng các mô hình hình ảnh có thể được chuyển hướng sang các phương thức mới, tiếp tục ảnh hưởng đến cách các nhà nghiên cứu khởi động các trình tạo âm thanh và video từ các xương sống đã được huấn luyện trước hiện có.

Triển khai trong thế giới thực

Tạo các bản nhạc nền lặp lại ngắn cho trò chơi điện tử độc lập từ lời nhắc văn bản như 'cuộc rượt đuổi sóng tổng hợp căng thẳng'

Chuyển đổi mượt mà giữa hai phong cách âm nhạc, ví dụ: pha trộn 'ngôi nhà nhiệt đới' thành 'hip hop lo-fi' trong một clip duy nhất

Sản xuất nền nhạc không gian miễn phí bản quyền cho video và podcast trên YouTube mà không phải trả phí cấp phép

Tạo nguyên mẫu các ý tưởng về giai điệu hoặc nhịp điệu mà nhạc sĩ sau đó ghi lại chính xác trong máy trạm âm thanh kỹ thuật số

Các mẫu triển khai

Sơ đồ phổ khuếch tán trong thực tế

Tạo các bản nhạc nền lặp lại ngắn cho trò chơi điện tử độc lập từ lời nhắc văn bản như 'cuộc rượt đuổi sóng tổng hợp căng thẳng'.

Tạo các bản nhạc nền lặp lại ngắn cho trò chơi điện tử độc lập từ lời nhắc văn bản như 'cuộc rượt đuổi sóng tổng hợp căng thẳng' Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Sơ đồ phổ khuếch tán trong thực tế

Chuyển đổi mượt mà giữa hai phong cách âm nhạc, ví dụ: pha trộn 'ngôi nhà nhiệt đới' thành 'hip hop lo-fi' trong một clip duy nhất.

Chuyển đổi mượt mà giữa hai phong cách âm nhạc, ví dụ: kết hợp 'ngôi nhà nhiệt đới' thành 'hip hop lo-fi' trong một clip duy nhất Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình báo cáo của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Sơ đồ phổ khuếch tán trong thực tế

Sản xuất nền nhạc không gian miễn phí bản quyền cho video và podcast trên YouTube mà không phải trả phí cấp phép.

Sản xuất nền nhạc xung quanh miễn phí bản quyền cho video và podcast trên YouTube mà không phải trả phí cấp phép Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Sơ đồ phổ khuếch tán trong thực tế

Tạo nguyên mẫu các ý tưởng về giai điệu hoặc nhịp điệu mà sau đó nhạc sĩ sẽ ghi lại chính xác trong máy trạm âm thanh kỹ thuật số.

Tạo nguyên mẫu các ý tưởng về giai điệu hoặc nhịp điệu mà nhạc sĩ sau đó ghi lại chính xác trong máy trạm âm thanh kỹ thuật số Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Rủi ro & lan can

!

Rủi ro lạm dụng giọng nói và mạo danh sẽ tăng lên khi thiếu sự đồng ý.

!

Độ chính xác có thể giảm đối với các giọng, phương ngữ hoặc môi trường ồn ào.

!

Âm thanh tổng hợp có thể bị nhầm lẫn với lời nói đích thực nếu không có nhãn rõ ràng.

Lộ trình thực hiện

1

Nhận được sự đồng ý rõ ràng để thu âm, sao chép và tái sử dụng giọng nói.

Nhận được sự đồng ý rõ ràng để thu âm, sao chép và tái sử dụng giọng nói. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

2

Kiểm tra chất lượng trên nhiều loa và điều kiện nền khác nhau.

Kiểm tra chất lượng trên nhiều loa và điều kiện nền khác nhau. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

3

Xác định khi nào con người phải xem xét hoặc phê duyệt kết quả đầu ra.

Xác định khi nào con người phải xem xét hoặc phê duyệt kết quả đầu ra. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

4

Dán nhãn âm thanh tổng hợp và lưu giữ hồ sơ xuất xứ để đảm bảo trách nhiệm giải trình.

Dán nhãn âm thanh tổng hợp và lưu giữ hồ sơ xuất xứ để đảm bảo trách nhiệm giải trình. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

Tiếp tục khám phá