HƯỚNG DẪN AI âm thanh

Cải thiện giọng nói Noise2Noise

Noise2Noise là một thủ thuật đào tạo cho phép mô hình học cách loại bỏ nhiễu mà không bao giờ nhìn thấy một tham chiếu rõ ràng, bằng cách học từ các cặp phiên bản nhiễu khác nhau của cùng một tín hiệu.

Tổng quan

Noise2Noise là một thủ thuật đào tạo cho phép mô hình học cách loại bỏ nhiễu mà không bao giờ nhìn thấy một tham chiếu rõ ràng, bằng cách học từ các cặp phiên bản nhiễu khác nhau của cùng một tín hiệu. Để cải thiện giọng nói, điều này rất quan trọng vì các bản ghi âm sạch thì đắt tiền hoặc không thể có được, tuy nhiên những bản ghi âm ồn thì có ở khắp mọi nơi.

Noise2Noise Speech Enhancement nằm trong quy trình làm việc về âm thanh-AI giúp chuyển đổi lời nói, âm nhạc và âm thanh để giao tiếp, khả năng tiếp cận và sản xuất phương tiện truyền thông.

Lặn sâu

Được các nhà nghiên cứu NVIDIA giới thiệu vào năm 2018, Noise2Noise đã đưa ra một tuyên bố đáng ngạc nhiên: bạn có thể huấn luyện bộ khử nhiễu chỉ bằng cách sử dụng các mẫu bị hỏng. Cái nhìn sâu sắc là thống kê. Nếu bạn cung cấp cho mạng hai phiên bản nhiễu của cùng một tín hiệu cơ bản và yêu cầu mạng ánh xạ cái này với cái kia bằng cách sử dụng lỗi bình phương trung bình như tổn thất, thì mạng không thể dự đoán nhiễu ngẫu nhiên ở mục tiêu, vì vậy điều tốt nhất nó có thể làm là xuất ra giá trị mong đợi, tức là tín hiệu sạch. Tiếng ồn ở mức trung bình. Áp dụng cho lời nói, bạn có một cách phát âm rõ ràng, thêm hai mẫu tiếng ồn độc lập và huấn luyện mô hình để dự đoán một đoạn tiếng ồn từ một đoạn tiếng ồn khác. Khi suy luận, mô hình sẽ loại bỏ nhiễu khỏi bản ghi thực. Điều này giúp giải quyết nút thắt cốt lõi của việc khử nhiễu có giám sát: cần âm thanh trung thực hoàn toàn rõ ràng.

Hiểu biết kỹ thuật

Phép toán dựa trên đặc tính là tổn thất L2 (lỗi bình phương trung bình) được giảm thiểu ở mức trung bình có điều kiện. Nếu nhiễu được thêm vào mục tiêu có giá trị trung bình bằng 0 và không phụ thuộc vào nhiễu của đầu vào thì nhiễu không thể đoán trước chỉ góp phần tạo ra phương sai không đổi dẫn đến suy hao, do đó, việc giảm độ dốc sẽ đẩy mạng về phía tín hiệu sạch cơ bản. Ý tưởng tương tự cũng áp dụng được với các công cụ ước tính khác: tổn thất L1 sẽ phục hồi giá trị trung bình, hữu ích đối với nhiễu xung.

Làm chủ Noise2Noise Cải thiện giọng nói

Noise2Noise là một thủ thuật đào tạo cho phép mô hình học cách loại bỏ nhiễu mà không bao giờ nhìn thấy một tham chiếu rõ ràng, bằng cách học từ các cặp phiên bản nhiễu khác nhau của cùng một tín hiệu. Để cải thiện giọng nói, điều này rất quan trọng vì các bản ghi âm sạch thì đắt tiền hoặc không thể có được, tuy nhiên những bản ghi âm ồn thì có ở khắp mọi nơi. Noise2Noise Speech Enhancement nằm trong quy trình làm việc về âm thanh-AI giúp chuyển đổi lời nói, âm nhạc và âm thanh để giao tiếp, khả năng tiếp cận và sản xuất phương tiện truyền thông. Để xây dựng sự hiểu biết sâu sắc, hãy coi Noise2Noise Speech Enhancement như một mô hình hoạt động chứ không phải một tính năng duy nhất: xác định kết quả mong muốn, làm rõ các giả định và tách biệt những gì hệ thống có thể thực hiện một cách đáng tin cậy với những gì vẫn cần đến sự đánh giá của chuyên gia.

Trong thực tế, các nhóm mạnh sử dụng tính năng Tăng cường giọng nói của Noise2Noise coi chất lượng, độ trễ và sự đồng ý là những phần quan trọng không kém trong chiến lược triển khai. Họ ghi lại các tiêu chí thành công rõ ràng, kiểm tra dựa trên dữ liệu và quy trình làm việc thực tế, đồng thời lặp lại dựa trên các kiểu thất bại được quan sát thay vì chiến thắng điểm chuẩn một lần. Đây là nơi sự hiểu biết về mặt lý thuyết biến thành khả năng bền vững trên toàn bộ sản phẩm, chính sách và hoạt động.

Nó cải thiện khả năng tiếp cận thông qua phiên âm, tường thuật và giao diện giọng nói. Đồng thời, nguy cơ lạm dụng giọng nói và mạo danh sẽ tăng lên khi không có sự đồng ý. Cách tiếp cận linh hoạt nhất là kết hợp tốc độ thử nghiệm với kỷ luật quản trị: chạy thử nghiệm, thu thập bằng chứng, xuất bản nhật ký quyết định và liên tục cập nhật các biện pháp bảo vệ khi hành vi của mô hình, kỳ vọng của người dùng và các yêu cầu pháp lý phát triển.

Tác động chiến lược

Nó cải thiện khả năng tiếp cận thông qua phiên âm, tường thuật và giao diện giọng nói.

Nó cải thiện khả năng tiếp cận thông qua phiên âm, tường thuật và giao diện giọng nói. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Các nhóm truyền thông có thể gửi âm thanh tinh tế nhanh hơn với ngân sách nhỏ hơn.

Các nhóm truyền thông có thể gửi âm thanh tinh tế nhanh hơn với ngân sách nhỏ hơn. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Các hệ thống hướng tới khách hàng có thể xử lý các tương tác bằng giọng nói ở quy mô lớn hơn.

Các hệ thống hướng tới khách hàng có thể xử lý các tương tác bằng giọng nói ở quy mô lớn hơn. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Tương lai của Noise2Noise Cải thiện giọng nói

Noise2Noise đã mở ra một nhóm các phương pháp khử nhiễu tự giám sát, bao gồm Noise2Void và Noise2Self, giúp giảm bớt các yêu cầu hơn nữa trong việc học từ các mẫu nhiễu đơn lẻ. Đối với bài phát biểu, hãy kỳ vọng những ý tưởng này sẽ hỗ trợ việc cải tiến thiết bị cho máy trợ thính, cuộc gọi và bản ghi âm hiện trường khi việc thu thập tài liệu tham khảo rõ ràng là không thực tế. Kết hợp với bộ phát âm tổng hợp, các hệ thống trong tương lai có thể không chỉ loại bỏ tiếng ồn mà còn tái tạo lại nội dung giọng nói bị che giấu hoặc bị phá hủy một cách hợp lý trong khi vẫn trung thành với người nói.

Triển khai trong thế giới thực

Dọn dẹp các bản ghi âm hiện trường hoặc lưu trữ nơi không có tài liệu tham khảo rõ ràng về bài phát biểu gốc

Cải thiện độ rõ nét của cuộc gọi thoại trên điện thoại và máy tính xách tay bằng cách huấn luyện bộ khử nhiễu về khả năng ghi lại tiếng ồn trong thế giới thực

Cải thiện giọng nói cho máy trợ thính bằng cách sử dụng các bản ghi ồn được ghép nối thay vì âm thanh sạch không thể thu được

Khôi phục các băng podcast hoặc băng phỏng vấn cũ ồn ào mà chỉ những phiên bản xuống cấp mới tồn tại được

Các mẫu triển khai

Noise2Noise Cải thiện giọng nói trong thực tế

Dọn dẹp các bản ghi hiện trường hoặc lưu trữ mà không có tài liệu tham khảo rõ ràng về bài phát biểu gốc.

Dọn dẹp các bản ghi hiện trường hoặc lưu trữ không có tham chiếu rõ ràng về bài phát biểu gốc Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình báo cáo của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Noise2Noise Cải thiện giọng nói trong thực tế

Cải thiện độ rõ nét của cuộc gọi thoại trên điện thoại và máy tính xách tay bằng cách huấn luyện bộ khử nhiễu bằng cách ghi lại tiếng ồn trong thế giới thực.

Cải thiện độ rõ của cuộc gọi thoại trên điện thoại và máy tính xách tay bằng cách huấn luyện bộ khử nhiễu bằng cách ghi tiếng ồn trong thế giới thực. Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Noise2Noise Cải thiện giọng nói trong thực tế

Cải thiện giọng nói cho máy trợ thính bằng cách sử dụng các bản ghi âm ồn được ghép nối thay vì âm thanh sạch không thể thu được.

Cải thiện giọng nói cho máy trợ thính bằng cách sử dụng các bản ghi ồn được ghép nối thay vì âm thanh sạch không thể thu được Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, theo dõi lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Noise2Noise Cải thiện giọng nói trong thực tế

Khôi phục các băng podcast hoặc băng phỏng vấn cũ ồn ào mà chỉ những phiên bản xuống cấp mới tồn tại được.

Khôi phục các băng podcast hoặc băng phỏng vấn cũ ồn ào trong đó chỉ có các phiên bản xuống cấp mới tồn tại. Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Rủi ro & lan can

!

Rủi ro lạm dụng giọng nói và mạo danh sẽ tăng lên khi thiếu sự đồng ý.

!

Độ chính xác có thể giảm đối với các giọng, phương ngữ hoặc môi trường ồn ào.

!

Âm thanh tổng hợp có thể bị nhầm lẫn với lời nói đích thực nếu không có nhãn rõ ràng.

Lộ trình thực hiện

1

Nhận được sự đồng ý rõ ràng để thu âm, sao chép và tái sử dụng giọng nói.

Nhận được sự đồng ý rõ ràng để thu âm, sao chép và tái sử dụng giọng nói. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

2

Kiểm tra chất lượng trên nhiều loa và điều kiện nền khác nhau.

Kiểm tra chất lượng trên nhiều loa và điều kiện nền khác nhau. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

3

Xác định khi nào con người phải xem xét hoặc phê duyệt kết quả đầu ra.

Xác định khi nào con người phải xem xét hoặc phê duyệt kết quả đầu ra. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

4

Dán nhãn âm thanh tổng hợp và lưu giữ hồ sơ xuất xứ để đảm bảo trách nhiệm giải trình.

Dán nhãn âm thanh tổng hợp và lưu giữ hồ sơ xuất xứ để đảm bảo trách nhiệm giải trình. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

Tiếp tục khám phá