คู่มือเสียง AI

Noise2 การเพิ่มประสิทธิภาพคำพูด

Noise2Noise เป็นเคล็ดลับการฝึกที่ช่วยให้โมเดลเรียนรู้ที่จะกำจัดสัญญาณรบกวนโดยไม่ต้องเห็นการอ้างอิงที่ชัดเจน โดยการเรียนรู้จากคู่ของสัญญาณเดียวกันในเวอร์ชันที่มีสัญญาณรบกวนต่างกัน

ภาพรวม

Noise2Noise เป็นเคล็ดลับการฝึกที่ช่วยให้โมเดลเรียนรู้ที่จะกำจัดสัญญาณรบกวนโดยไม่ต้องเห็นการอ้างอิงที่ชัดเจน โดยการเรียนรู้จากคู่ของสัญญาณเดียวกันในเวอร์ชันที่มีสัญญาณรบกวนต่างกัน การปรับปรุงคุณภาพเสียงพูดเป็นเรื่องสำคัญเนื่องจากการบันทึกที่สะอาดมีราคาแพงหรือเป็นไปไม่ได้ แต่ก็มีเสียงรบกวนอยู่ทุกหนทุกแห่ง

Noise2Noise Speech Enhancement ตั้งอยู่ในเวิร์กโฟลว์เสียง-AI ที่แปลงคำพูด เพลง และเสียงเพื่อการสื่อสาร การเข้าถึง และการผลิตสื่อ

เจาะลึก

Noise2Noise เปิดตัวโดยนักวิจัยของ NVIDIA ในปี 2018 โดยอ้างว่าคุณสามารถฝึก denoiser ได้โดยใช้ตัวอย่างที่เสียหายเท่านั้น ข้อมูลเชิงลึกเป็นสถิติ หากคุณให้สัญญาณพื้นฐานเดียวกันที่มีสัญญาณรบกวนสองเวอร์ชันแก่เครือข่าย และขอให้เครือข่ายจับคู่สัญญาณหนึ่งไปยังอีกสัญญาณหนึ่งโดยใช้การสูญเสีย เช่น ข้อผิดพลาดกำลังสองเฉลี่ย เครือข่ายจะไม่สามารถคาดเดาสัญญาณรบกวนแบบสุ่มในเป้าหมายได้ ดังนั้น สิ่งที่ดีที่สุดที่ทำได้คือส่งออกค่าที่คาดหวัง ซึ่งเป็นสัญญาณที่สะอาด เสียงรบกวนเฉลี่ยออก เมื่อใช้กับคำพูด คุณจะต้องใช้คำพูดที่สะอาดตา เพิ่มตัวอย่างเสียงอิสระ 2 ตัวอย่าง และฝึกแบบจำลองให้คาดเดาคลิปที่มีเสียงดังหนึ่งคลิปจากอีกคลิปหนึ่ง เมื่ออนุมาน โมเดลจะขจัดสัญญาณรบกวนออกจากการบันทึกจริง สิ่งนี้เป็นการก้าวข้ามคอขวดหลักของการลดสัญญาณรบกวนแบบมีผู้ดูแล: ต้องการเสียงจากความจริงที่สะอาดสมบูรณ์แบบ

ข้อมูลเชิงลึกทางเทคนิค

คณิตศาสตร์ขึ้นอยู่กับคุณสมบัติที่การสูญเสีย L2 (ค่าคลาดเคลื่อนกำลังสองเฉลี่ย) ลดลงเหลือน้อยที่สุดที่ค่าเฉลี่ยแบบมีเงื่อนไข หากสัญญาณรบกวนที่เพิ่มไปยังเป้าหมายนั้นมีค่าเฉลี่ยเป็นศูนย์และไม่ขึ้นอยู่กับสัญญาณรบกวนของอินพุต สัญญาณรบกวนที่คาดเดาไม่ได้จะก่อให้เกิดความแปรปรวนคงที่ต่อการสูญเสียเท่านั้น ดังนั้นการไล่ระดับลงจะขับเคลื่อนเครือข่ายไปยังสัญญาณสะอาดที่อยู่ด้านล่าง แนวคิดเดียวกันนี้ใช้ได้กับตัวประมาณค่าอื่นๆ: การสูญเสีย L1 จะกู้คืนค่ามัธยฐาน ซึ่งมีประโยชน์สำหรับสัญญาณรบกวนที่หุนหันพลันแล่น

การเรียนรู้ Noise2Noise Speech Enhancement

Noise2Noise เป็นเคล็ดลับการฝึกที่ช่วยให้โมเดลเรียนรู้ที่จะกำจัดสัญญาณรบกวนโดยไม่ต้องเห็นการอ้างอิงที่ชัดเจน โดยการเรียนรู้จากคู่ของสัญญาณเดียวกันในเวอร์ชันที่มีสัญญาณรบกวนต่างกัน การปรับปรุงคุณภาพเสียงพูดเป็นเรื่องสำคัญเนื่องจากการบันทึกที่สะอาดมีราคาแพงหรือเป็นไปไม่ได้ แต่ก็มีเสียงรบกวนอยู่ทุกหนทุกแห่ง Noise2Noise Speech Enhancement ตั้งอยู่ในเวิร์กโฟลว์เสียง-AI ที่แปลงคำพูด เพลง และเสียงเพื่อการสื่อสาร การเข้าถึง และการผลิตสื่อ หากต้องการสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Noise2Noise Speech Enhancement เป็นรูปแบบการทำงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Noise2Noise Speech Enhancement จะถือว่าคุณภาพ เวลาแฝง และความยินยอมเป็นส่วนสำคัญของกลยุทธ์การปรับใช้ โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในขณะเดียวกัน การใช้ Voice ในทางที่ผิดและการแอบอ้างบุคคลอื่นก็มีความเสี่ยงเพิ่มขึ้นเมื่อไม่ได้รับความยินยอม แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของ Noise2Noise Speech Enhancement

Noise2Noise เปิดกลุ่มวิธีการลดเสียงรบกวนแบบมีผู้ดูแลด้วยตนเอง ซึ่งรวมถึง Noise2Void และ Noise2Self ซึ่งผ่อนคลายข้อกำหนดในการเรียนรู้จากตัวอย่างที่มีเสียงรบกวนเดี่ยวมากยิ่งขึ้น สำหรับคำพูด แนวคิดเหล่านี้จะขับเคลื่อนการเพิ่มประสิทธิภาพบนอุปกรณ์สำหรับเครื่องช่วยฟัง การโทร และการบันทึกภาคสนาม ซึ่งการรวบรวมการอ้างอิงที่ชัดเจนไม่สามารถทำได้ เมื่อใช้ร่วมกับ generative vocoder ระบบในอนาคตอาจไม่เพียงแต่ลบเสียงรบกวน แต่ยังสร้างเนื้อหาคำพูดที่ปิดบังหรือถูกทำลายขึ้นมาใหม่ได้อย่างน่าเชื่อถือ ในขณะที่ยังคงซื่อสัตย์ต่อผู้พูด

การใช้งานจริงในโลกแห่งความเป็นจริง

การล้างข้อมูลภาคสนามหรือการบันทึกเอกสารสำคัญที่ไม่มีการอ้างอิงคำพูดต้นฉบับที่ชัดเจน

ปรับปรุงความชัดเจนของการโทรด้วยเสียงบนโทรศัพท์และแล็ปท็อปโดยการฝึกอบรมผู้กำจัดเสียงรบกวนในการบันทึกเสียงรบกวนในโลกแห่งความเป็นจริง

ปรับปรุงคำพูดสำหรับเครื่องช่วยฟังโดยใช้การบันทึกเสียงที่จับคู่กันแทนเสียงที่สะอาดซึ่งไม่สามารถหาได้

การฟื้นฟูพอดแคสต์หรือเทปสัมภาษณ์เก่าที่มีเสียงดัง โดยมีเพียงเวอร์ชันที่เสื่อมโทรมเท่านั้นที่ยังคงอยู่

รูปแบบการดำเนินงาน

Noise2Noise Speech Enhancement ในทางปฏิบัติ

การล้างข้อมูลภาคสนามหรือการบันทึกเอกสารสำคัญที่ไม่มีการอ้างอิงคำพูดต้นฉบับที่ชัดเจน

การล้างข้อมูลบันทึกภาคสนามหรือเอกสารสำคัญที่ไม่มีการอ้างอิงคำพูดต้นฉบับที่ชัดเจน ทีมมักจะได้ผลลัพธ์ที่ดีกว่าเมื่อกำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Noise2Noise Speech Enhancement ในทางปฏิบัติ

ปรับปรุงความชัดเจนของการโทรด้วยเสียงบนโทรศัพท์และแล็ปท็อปโดยการฝึกอบรมผู้กำจัดเสียงรบกวนในการบันทึกเสียงรบกวนในโลกแห่งความเป็นจริง

การปรับปรุงความชัดเจนของการโทรด้วยเสียงบนโทรศัพท์และแล็ปท็อปโดยการฝึกอบรมตัวลดเสียงรบกวนในการตรวจจับเสียงรบกวนในโลกแห่งความเป็นจริง ทีมมักจะได้รับผลลัพธ์ที่ดีขึ้นเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Noise2Noise Speech Enhancement ในทางปฏิบัติ

ปรับปรุงคำพูดสำหรับเครื่องช่วยฟังโดยใช้การบันทึกเสียงที่จับคู่กันแทนเสียงที่สะอาดซึ่งไม่สามารถหาได้

การปรับปรุงคำพูดสำหรับเครื่องช่วยฟังโดยใช้การบันทึกเสียงที่จับคู่กันแทนเสียงที่สะอาดซึ่งหาไม่ได้ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Noise2Noise Speech Enhancement ในทางปฏิบัติ

การฟื้นฟูพอดแคสต์หรือเทปสัมภาษณ์เก่าที่มีเสียงดัง โดยมีเพียงเวอร์ชันที่เสื่อมโทรมเท่านั้นที่ยังคงอยู่

การกู้คืนพอดแคสต์เก่าหรือเทปสัมภาษณ์ที่มีแต่เวอร์ชันเสื่อมคุณภาพเท่านั้นที่ยังคงอยู่ ทีมมักจะได้รับผลลัพธ์ที่ดีขึ้นเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การใช้เสียงในทางที่ผิดและการแอบอ้างบุคคลอื่นมีความเสี่ยงเพิ่มขึ้นเมื่อขาดความยินยอม

!

ความแม่นยำอาจลดลงตามสำเนียง ภาษาถิ่น หรือสภาพแวดล้อมที่มีเสียงดัง

!

เสียงสังเคราะห์อาจถูกเข้าใจผิดว่าเป็นเสียงพูดที่แท้จริงโดยไม่มีการกำกับที่ชัดเจน

แผนงานการดำเนินงาน

1

ได้รับความยินยอมอย่างชัดแจ้งสำหรับการจับเสียง การโคลน และการใช้ซ้ำ

ได้รับความยินยอมอย่างชัดแจ้งสำหรับการจับเสียง การโคลน และการใช้ซ้ำ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบคุณภาพกับลำโพงและสภาพพื้นหลังที่หลากหลาย

ทดสอบคุณภาพกับลำโพงและสภาพพื้นหลังที่หลากหลาย ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

กำหนดเวลาที่มนุษย์จะต้องตรวจสอบหรืออนุมัติผลลัพธ์

กำหนดเวลาที่มนุษย์จะต้องตรวจสอบหรืออนุมัติผลลัพธ์ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดป้ายกำกับเสียงสังเคราะห์และเก็บบันทึกที่มาเพื่อความรับผิดชอบ

ติดป้ายกำกับเสียงสังเคราะห์และเก็บบันทึกที่มาเพื่อความรับผิดชอบ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป