HƯỚNG DẪN AI âm thanh

MusicLM Thế hệ âm nhạc phân cấp

MusicLM là mô hình chuyển văn bản thành nhạc của Google tạo ra âm thanh mạch lạc trong vài phút từ mô tả như 'một giai điệu violin êm dịu được hỗ trợ bởi đoạn riff guitar bị bóp méo'.

Tổng quan

MusicLM là mô hình chuyển văn bản thành nhạc của Google tạo ra âm thanh mạch lạc trong vài phút từ mô tả như 'giai điệu violin êm dịu được hỗ trợ bởi đoạn riff guitar bị bóp méo'. Điều này quan trọng vì nó đã giải quyết được cấu trúc âm nhạc tầm xa bằng cách xếp chồng các mô hình theo thứ bậc, xử lý việc tạo ra âm nhạc giống như mô hình hóa ngôn ngữ trên mã thông báo âm thanh.

MusicLM Hierarchical Music Generation nằm trong quy trình làm việc về âm thanh-AI giúp chuyển đổi giọng nói, âm nhạc và âm thanh để giao tiếp, khả năng tiếp cận và sản xuất phương tiện truyền thông.

Lặn sâu

Được công bố bởi Google Nghiên cứu vào đầu năm 2023, MusicLM định hình việc tạo nhạc là dự đoán chuỗi các mã thông báo âm thanh riêng biệt, giống như một mô hình ngôn ngữ dự đoán các từ. Nó sử dụng một hệ thống biểu diễn phân cấp: mã thông báo ngữ nghĩa (từ mô hình có tên w2v-BERT) ghi lại cấu trúc cấp cao như giai điệu và nhịp điệu trong khoảng thời gian dài, trong khi mã thông báo âm thanh (từ codec thần kinh SoundStream) ghi lại các chi tiết nhỏ như âm sắc và kết cấu. Giai đoạn đầu tiên tạo mã thông báo ngữ nghĩa từ dấu nhắc văn bản, sau đó các giai đoạn sau sẽ điền chi tiết âm thanh dựa trên các ngữ nghĩa đó. Điều hòa văn bản đến từ MuLM/MuLan, một phương pháp nhúng văn bản-âm nhạc chung được đào tạo để mô tả và âm thanh nằm trong cùng một không gian. Cách tiếp cận theo giai đoạn này cho phép MusicLM duy trì tính nhất quán về mặt âm nhạc trong vài phút thay vì trôi đi sau vài giây.

Hiểu biết kỹ thuật

Ý tưởng chính là tách cấu trúc khỏi kết cấu trên hệ thống phân cấp mã thông báo. Các mã thông báo ngữ nghĩa thô rất thưa thớt và thay đổi chậm, do đó, Transformer có thể lập mô hình dạng dài hạn mà không cần độ dài chuỗi lớn. Mã thông báo âm thanh dày đặc và có tốc độ cao, nhưng chúng chỉ cần được dự đoán dựa trên ngữ nghĩa đã cố định, giúp mỗi giai đoạn có thể thực hiện được. Lượng tử hóa vectơ dư của SoundStream tạo ra các mã âm thanh phân lớp mà bộ giải mã cuối cùng chuyển trở lại dạng sóng 24 kHz.

Làm chủ âm nhạcLM Thế hệ âm nhạc phân cấp

MusicLM là mô hình chuyển văn bản thành nhạc của Google tạo ra âm thanh mạch lạc trong vài phút từ mô tả như 'giai điệu violin êm dịu được hỗ trợ bởi đoạn riff guitar bị bóp méo'. Điều này quan trọng vì nó đã giải quyết được cấu trúc âm nhạc tầm xa bằng cách xếp chồng các mô hình theo thứ bậc, xử lý việc tạo ra âm nhạc giống như mô hình hóa ngôn ngữ trên mã thông báo âm thanh. MusicLM Hierarchical Music Generation nằm trong quy trình làm việc về âm thanh-AI giúp chuyển đổi giọng nói, âm nhạc và âm thanh để giao tiếp, khả năng tiếp cận và sản xuất phương tiện truyền thông. Để xây dựng sự hiểu biết sâu sắc, hãy coi MusicLM Hierarchical Music Generation như một mô hình vận hành chứ không phải một tính năng duy nhất: xác định kết quả mong muốn, làm rõ các giả định và tách biệt những gì hệ thống có thể thực hiện một cách đáng tin cậy với những gì vẫn cần đến sự đánh giá của chuyên gia.

Trong thực tế, các nhóm mạnh sử dụng MusicLM Hierarchical Music Generation coi chất lượng, độ trễ và sự đồng ý là những phần quan trọng không kém trong chiến lược triển khai. Họ ghi lại các tiêu chí thành công rõ ràng, kiểm tra dựa trên dữ liệu và quy trình làm việc thực tế, đồng thời lặp lại dựa trên các kiểu thất bại được quan sát thay vì chiến thắng điểm chuẩn một lần. Đây là nơi sự hiểu biết về mặt lý thuyết biến thành khả năng bền vững trên toàn bộ sản phẩm, chính sách và hoạt động.

Nó cải thiện khả năng tiếp cận thông qua phiên âm, tường thuật và giao diện giọng nói. Đồng thời, nguy cơ lạm dụng giọng nói và mạo danh sẽ tăng lên khi không có sự đồng ý. Cách tiếp cận linh hoạt nhất là kết hợp tốc độ thử nghiệm với kỷ luật quản trị: chạy thử nghiệm, thu thập bằng chứng, xuất bản nhật ký quyết định và liên tục cập nhật các biện pháp bảo vệ khi hành vi của mô hình, kỳ vọng của người dùng và các yêu cầu pháp lý phát triển.

Tác động chiến lược

Nó cải thiện khả năng tiếp cận thông qua phiên âm, tường thuật và giao diện giọng nói.

Nó cải thiện khả năng tiếp cận thông qua phiên âm, tường thuật và giao diện giọng nói. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Các nhóm truyền thông có thể gửi âm thanh tinh tế nhanh hơn với ngân sách nhỏ hơn.

Các nhóm truyền thông có thể gửi âm thanh tinh tế nhanh hơn với ngân sách nhỏ hơn. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Các hệ thống hướng tới khách hàng có thể xử lý các tương tác bằng giọng nói ở quy mô lớn hơn.

Các hệ thống hướng tới khách hàng có thể xử lý các tương tác bằng giọng nói ở quy mô lớn hơn. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Tương lai của âm nhạcLM Thế hệ âm nhạc phân cấp

Cách tiếp cận mã thông báo phân cấp của MusicLM đã trở thành khuôn mẫu cho các hệ thống sau này như MusicGen và các công cụ âm nhạc thương mại. Mong đợi điều hòa giai điệu chặt chẽ hơn (ngâm nga một giai điệu, sắp xếp đầy đủ), các bài hát có cấu trúc đầy đủ dài hơn với các câu và điệp khúc cũng như khả năng kiểm soát nhạc cụ và phím tốt hơn. Các vấn đề nhức nhối là pháp lý và đạo đức: cấp phép dữ liệu đào tạo, sự đồng ý của nghệ sĩ và tạo hình mờ cho âm thanh để có thể phân biệt với âm nhạc do con người tạo ra hiện là trọng tâm của quá trình triển khai.

Triển khai trong thế giới thực

Chuyển mô tả cảnh bằng văn bản thành điểm phim hoặc đoạn giới thiệu, ví dụ: 'dàn nhạc hoành tráng với dàn hợp xướng'

Tạo nhạc nền dựa trên chú thích hình ảnh hoặc thậm chí là mô tả bức tranh để sắp đặt nghệ thuật

Mở rộng giai điệu ngân nga hoặc huýt sáo ngắn thành một bản phối nhạc cụ đầy đủ

Sản xuất các bản nhạc stock đa dạng ở nhịp độ và tâm trạng khác nhau cho người tạo quảng cáo và nội dung

Các mẫu triển khai

Thực hành tạo nhạc phân cấp MusicLM

Chuyển mô tả cảnh bằng văn bản thành điểm phim hoặc đoạn giới thiệu, ví dụ: 'dàn nhạc hoành tráng được xây dựng với dàn hợp xướng'.

Chuyển mô tả cảnh bằng văn bản thành điểm phim hoặc đoạn giới thiệu, ví dụ: 'xây dựng dàn nhạc hoành tráng với dàn hợp xướng' Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí do lỗi theo thời gian.

Thực hành tạo nhạc phân cấp MusicLM

Tạo nhạc nền dựa trên chú thích hình ảnh hoặc thậm chí là mô tả bức vẽ cho các tác phẩm nghệ thuật sắp đặt.

Tạo nhạc nền dựa trên chú thích hình ảnh hoặc thậm chí là mô tả bức tranh cho các tác phẩm nghệ thuật sắp đặt Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Thực hành tạo nhạc phân cấp MusicLM

Mở rộng giai điệu ngân nga hoặc huýt sáo ngắn thành một bản phối nhạc cụ đầy đủ.

Mở rộng giai điệu ngân nga hoặc huýt sáo ngắn thành một bản sắp xếp được trang bị đầy đủ nhạc cụ. Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình báo cáo của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí do lỗi theo thời gian.

Thực hành tạo nhạc phân cấp MusicLM

Sản xuất các bản nhạc stock đa dạng ở nhịp độ và tâm trạng khác nhau cho người tạo quảng cáo và nội dung.

Sản xuất các bản nhạc stock đa dạng ở nhịp độ và tâm trạng khác nhau cho người tạo quảng cáo và nội dung. Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Rủi ro & lan can

!

Rủi ro lạm dụng giọng nói và mạo danh sẽ tăng lên khi thiếu sự đồng ý.

!

Độ chính xác có thể giảm đối với các giọng, phương ngữ hoặc môi trường ồn ào.

!

Âm thanh tổng hợp có thể bị nhầm lẫn với lời nói đích thực nếu không có nhãn rõ ràng.

Lộ trình thực hiện

1

Nhận được sự đồng ý rõ ràng để thu âm, sao chép và tái sử dụng giọng nói.

Nhận được sự đồng ý rõ ràng để thu âm, sao chép và tái sử dụng giọng nói. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

2

Kiểm tra chất lượng trên nhiều loa và điều kiện nền khác nhau.

Kiểm tra chất lượng trên nhiều loa và điều kiện nền khác nhau. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

3

Xác định khi nào con người phải xem xét hoặc phê duyệt kết quả đầu ra.

Xác định khi nào con người phải xem xét hoặc phê duyệt kết quả đầu ra. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

4

Dán nhãn âm thanh tổng hợp và lưu giữ hồ sơ xuất xứ để đảm bảo trách nhiệm giải trình.

Dán nhãn âm thanh tổng hợp và lưu giữ hồ sơ xuất xứ để đảm bảo trách nhiệm giải trình. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

Tiếp tục khám phá