HƯỚNG DẪN AI âm thanh

Âm nhạcGen

MusicGen là mô hình AI của Meta tạo ra âm nhạc từ mô tả văn bản và tùy chọn giai điệu mà bạn ngân nga hoặc tải lên.

Tổng quan

MusicGen là mô hình AI của Meta tạo ra âm nhạc từ mô tả văn bản và tùy chọn giai điệu mà bạn ngân nga hoặc tải lên. Nó quan trọng vì nó đặt việc tạo nhạc chất lượng cao, có thể kiểm soát được vào một mô hình duy nhất, được phát hành công khai mà những người có sở thích và nhà nghiên cứu thực sự có thể vận hành.

MusicGen nằm trong quy trình làm việc về âm thanh-AI giúp biến đổi giọng nói, âm nhạc và âm thanh để giao tiếp, khả năng tiếp cận và sản xuất phương tiện truyền thông.

Lặn sâu

Được phát hành bởi Meta AI vào năm 2023 như một phần của dự án AudioCraft, MusicGen biến những lời nhắc như "một bản nhạc synth-pop sôi động của thập niên 80 với âm trầm sôi động" thành các đoạn nhạc dài khoảng 12 giây (có thể kéo dài). Không giống như các hệ thống nhiều giai đoạn, MusicGen sử dụng một mô hình ngôn ngữ Transformer duy nhất để dự đoán mã thông báo âm thanh được tạo bởi bộ giải mã thần kinh EnCodec của Meta. Đóng góp thông minh của nó là mô hình xen kẽ mã thông báo (được gọi là xen kẽ độ trễ) cho phép một mô hình xử lý nhiều luồng mã thông báo song song của EnCodec một cách hiệu quả, tránh việc xếp chồng các mô hình riêng biệt mà các phương pháp tiếp cận trước đó cần thiết. MusicGen có thể được điều khiển theo hai cách cùng một lúc: bằng mô tả văn bản và bằng giai điệu tham chiếu, vì vậy bạn có thể yêu cầu 'phiên bản jazz' của giai điệu mà bạn ngân nga. Meta đã phát hành mã và trọng số một cách công khai, thúc đẩy làn sóng thử nghiệm và công cụ cộng đồng.

Hiểu biết kỹ thuật

MusicGen thể hiện âm thanh dưới dạng các luồng song song của các mã thông báo riêng biệt từ codec EnCodec, mỗi luồng ghi lại các chi tiết khác nhau. Thay vì lập mô hình các luồng bằng các mô hình riêng biệt, MusicGen xen kẽ chúng với độ trễ được kiểm soát để một Transformer tự hồi quy duy nhất dự đoán chúng trong một lần truyền. Điều hòa văn bản đến từ bộ mã hóa văn bản T5, trong khi điều hòa giai điệu tùy chọn sử dụng sắc ký đồ (cấu hình cấp cao độ của âm thanh) để mô hình tuân theo giai điệu mà không sao chép bản ghi chính xác của nó.

Làm chủ âm nhạcGen

MusicGen là mô hình AI của Meta tạo ra âm nhạc từ mô tả văn bản và tùy chọn giai điệu mà bạn ngân nga hoặc tải lên. Nó quan trọng vì nó đặt việc tạo nhạc chất lượng cao, có thể kiểm soát được vào một mô hình duy nhất, được phát hành công khai mà những người có sở thích và nhà nghiên cứu thực sự có thể vận hành. MusicGen nằm trong quy trình làm việc về âm thanh-AI giúp biến đổi giọng nói, âm nhạc và âm thanh để giao tiếp, khả năng tiếp cận và sản xuất phương tiện truyền thông. Để xây dựng sự hiểu biết sâu sắc, hãy coi MusicGen như một mô hình vận hành chứ không phải một tính năng duy nhất: xác định kết quả mong muốn, làm rõ các giả định và tách biệt những gì hệ thống có thể thực hiện một cách đáng tin cậy với những gì vẫn cần đến sự đánh giá của chuyên gia.

Trong thực tế, các nhóm mạnh sử dụng MusicGen coi chất lượng, độ trễ và sự đồng ý là những phần quan trọng như nhau trong chiến lược triển khai. Họ ghi lại các tiêu chí thành công rõ ràng, kiểm tra dựa trên dữ liệu và quy trình làm việc thực tế, đồng thời lặp lại dựa trên các kiểu thất bại được quan sát thay vì chiến thắng điểm chuẩn một lần. Đây là nơi sự hiểu biết về mặt lý thuyết biến thành khả năng bền vững trên toàn bộ sản phẩm, chính sách và hoạt động.

Nó cải thiện khả năng tiếp cận thông qua phiên âm, tường thuật và giao diện giọng nói. Đồng thời, nguy cơ lạm dụng giọng nói và mạo danh sẽ tăng lên khi không có sự đồng ý. Cách tiếp cận linh hoạt nhất là kết hợp tốc độ thử nghiệm với kỷ luật quản trị: chạy thử nghiệm, thu thập bằng chứng, xuất bản nhật ký quyết định và liên tục cập nhật các biện pháp bảo vệ khi hành vi của mô hình, kỳ vọng của người dùng và các yêu cầu pháp lý phát triển.

Tác động chiến lược

Nó cải thiện khả năng tiếp cận thông qua phiên âm, tường thuật và giao diện giọng nói.

Nó cải thiện khả năng tiếp cận thông qua phiên âm, tường thuật và giao diện giọng nói. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Các nhóm truyền thông có thể gửi âm thanh tinh tế nhanh hơn với ngân sách nhỏ hơn.

Các nhóm truyền thông có thể gửi âm thanh tinh tế nhanh hơn với ngân sách nhỏ hơn. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Các hệ thống hướng tới khách hàng có thể xử lý các tương tác bằng giọng nói ở quy mô lớn hơn.

Các hệ thống hướng tới khách hàng có thể xử lý các tương tác bằng giọng nói ở quy mô lớn hơn. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Tương lai của âm nhạcGen

Bản phát hành mở của MusicGen đặt ra một tiêu chuẩn cơ bản mà các phiên bản kế nhiệm nhắm tới với đầu ra âm thanh nổi dài hơn, độ trung thực cao hơn, cùng với khả năng kiểm soát tốt hơn đối với cấu trúc, nhạc cụ và các phần bài hát. Mong đợi sự tích hợp chặt chẽ hơn vào phần mềm sản xuất âm nhạc, tạo tương tác theo thời gian thực và các công cụ tốt hơn để chỉnh sửa hoặc mở rộng các bản nhạc hiện có. Giống như tất cả các loại nhạc sáng tạo, nó đặt ra các câu hỏi về bản quyền dữ liệu đào tạo, bồi thường cho nghệ sĩ và cách gắn nhãn các bài hát do AI tạo ra trong một thị trường tràn ngập.

Triển khai trong thế giới thực

Tạo nhạc nền miễn phí bản quyền cho video YouTube từ lời nhắc văn bản

Ngâm nga một giai điệu và yêu cầu MusicGen soạn lại giai điệu đó cho dàn nhạc đầy đủ

Các nhà phát triển trò chơi tạo mẫu nhạc nền ở nhiều thể loại khác nhau một cách nhanh chóng

Các nhà nghiên cứu và những người có sở thích chạy các ứng dụng nguồn mở để thử nghiệm tính năng chuyển văn bản thành nhạc

Các mẫu triển khai

MusicGen trong thực tế

Tạo nhạc nền miễn phí bản quyền cho video YouTube từ lời nhắc văn bản.

Tạo nhạc nền miễn phí bản quyền cho video YouTube từ lời nhắc văn bản Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình báo cáo của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí do lỗi theo thời gian.

MusicGen trong thực tế

Ngâm nga một giai điệu và yêu cầu MusicGen soạn lại giai điệu đầy đủ cho dàn nhạc đó.

Ngâm nga một giai điệu và yêu cầu MusicGen sắp xếp dàn nhạc đầy đủ. Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình báo cáo của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

MusicGen trong thực tế

Các nhà phát triển trò chơi tạo nguyên mẫu các bản nhạc ở nhiều thể loại khác nhau một cách nhanh chóng.

Các nhà phát triển trò chơi nhanh chóng tạo nguyên mẫu các bản nhạc cấp độ ở các thể loại khác nhau. Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình báo cáo của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

MusicGen trong thực tế

Các nhà nghiên cứu và những người có sở thích đang chạy các ứng dụng nguồn mở để thử nghiệm tính năng chuyển văn bản thành nhạc.

Các nhà nghiên cứu và những người có sở thích chạy các trọng số nguồn mở để thử nghiệm tính năng chuyển văn bản thành nhạc. Các nhóm thường nhận được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, theo dõi lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Rủi ro & lan can

!

Rủi ro lạm dụng giọng nói và mạo danh sẽ tăng lên khi thiếu sự đồng ý.

!

Độ chính xác có thể giảm đối với các giọng, phương ngữ hoặc môi trường ồn ào.

!

Âm thanh tổng hợp có thể bị nhầm lẫn với lời nói đích thực nếu không có nhãn rõ ràng.

Lộ trình thực hiện

1

Nhận được sự đồng ý rõ ràng để thu âm, sao chép và tái sử dụng giọng nói.

Nhận được sự đồng ý rõ ràng để thu âm, sao chép và tái sử dụng giọng nói. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

2

Kiểm tra chất lượng trên nhiều loa và điều kiện nền khác nhau.

Kiểm tra chất lượng trên nhiều loa và điều kiện nền khác nhau. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

3

Xác định khi nào con người phải xem xét hoặc phê duyệt kết quả đầu ra.

Xác định khi nào con người phải xem xét hoặc phê duyệt kết quả đầu ra. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

4

Dán nhãn âm thanh tổng hợp và lưu giữ hồ sơ xuất xứ để đảm bảo trách nhiệm giải trình.

Dán nhãn âm thanh tổng hợp và lưu giữ hồ sơ xuất xứ để đảm bảo trách nhiệm giải trình. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

Tiếp tục khám phá