คู่มือเสียง AI

Vocoding ตัวกรองแหล่งที่มาและ WORLD

โวโคเดอร์เป็นเครื่องมือที่แยกคำพูดออกเป็นองค์ประกอบหลักแล้วสร้างใหม่

ภาพรวม

โวโคเดอร์เป็นเครื่องมือที่แยกคำพูดออกเป็นองค์ประกอบหลักแล้วสร้างใหม่ โมเดลตัวกรองแหล่งที่มาและตัวแปลงเสียง WORLD เป็นวิธีการแบบคลาสสิกที่ขับเคลื่อนการแปลงข้อความเป็นคำพูดและเสียงโดยแยกสิ่งที่สายเสียงของคุณทำออกจากรูปร่างปากของคุณ

Vocoding ตัวกรองแหล่งที่มาและ WORLD ตั้งอยู่ในเวิร์กโฟลว์เสียง-AI ที่แปลงคำพูด เพลง และเสียงเพื่อการสื่อสาร การเข้าถึง และการผลิตสื่อ

เจาะลึก

โมเดลตัวกรองแหล่งที่มาอธิบายคำพูดเป็นสองส่วนทำงานร่วมกัน: แหล่งที่มา (เสียงกระหึ่มจากเส้นเสียงที่สั่นสำหรับเสียงที่เปล่งออกมา หรืออากาศที่มีเสียงดังสำหรับเสียงกระซิบและพยัญชนะ) ผ่านตัวกรอง (รูปร่างที่ก้องกังวานของลำคอ ปาก และจมูก) ตัวแปลงเสียงจะวิเคราะห์เสียงที่บันทึกไว้เพื่อประมาณค่าชิ้นส่วนเหล่านี้ จากนั้นจึงสังเคราะห์เสียงใหม่จากเสียงเหล่านั้น WORLD ซึ่งเปิดตัวโดย Masanori Morise ประมาณปี 2016 เป็นโวโคเดอร์คุณภาพสูงที่แยกพารามิเตอร์ 3 ตัว ได้แก่ F0 (รูปร่างของระดับเสียงของแหล่งกำเนิด) เปลือกสเปกตรัม (ตัวกรอง ผ่านอัลกอริธึม CheapTrick) และค่าความสม่ำเสมอ (ปริมาณนอยส์เทียบกับโทนเสียง ผ่านทาง PLATINUM/D4C) สตรีมทั้งสามนี้สามารถปรับเปลี่ยนได้อย่างอิสระแล้วจึงสังเคราะห์ใหม่ ทำให้ WORLD เป็นเหมือนเครื่องมือสำหรับ Parametric TTS และระบบเสียงร้องเพลง

ข้อมูลเชิงลึกทางเทคนิค

พลังของโลกมาจากการแบ่งแยกที่สะอาด CheapTrick ประมาณการขอบเขตสเปกตรัมที่ราบรื่นซึ่งทนทานต่อข้อผิดพลาด F0 เล็กน้อย ในขณะที่ระยะพิทช์ของแทร็ก DIO/Harvest และ D4C จะวัดค่าความไม่สม่ำเสมอของแถบความถี่ เนื่องจากระดับเสียงสูงต่ำ ต่ำ และเสียงนอยส์อยู่ในสตรีมพารามิเตอร์ที่แยกจากกัน คุณสามารถเลื่อน F0 ขึ้นหนึ่งอ็อกเทฟได้โดยไม่ต้องเปลี่ยนลักษณะของเสียง หรือขยายระยะเวลาโดยไม่ต้องเปลี่ยนระดับเสียงสูงต่ำ ตัวเข้ารหัสประสาทอย่าง WaveNet ได้สร้างแบบจำลองรูปแบบของคลื่นโดยตรงในภายหลัง แต่ WORLD ยังคงรวดเร็ว ตีความได้ และไม่มีใบอนุญาต

การเรียนรู้ Vocoding ตัวกรองแหล่งที่มาและ WORLD

โวโคเดอร์เป็นเครื่องมือที่แยกคำพูดออกเป็นองค์ประกอบหลักแล้วสร้างใหม่ โมเดลตัวกรองแหล่งที่มาและตัวแปลงเสียง WORLD เป็นวิธีการแบบคลาสสิกที่ขับเคลื่อนการแปลงข้อความเป็นคำพูดและเสียงโดยแยกสิ่งที่สายเสียงของคุณทำออกจากรูปร่างปากของคุณ Vocoding ตัวกรองแหล่งที่มาและ WORLD ตั้งอยู่ในเวิร์กโฟลว์เสียง-AI ที่แปลงคำพูด เพลง และเสียงเพื่อการสื่อสาร การเข้าถึง และการผลิตสื่อ เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Source-Filter Vocoding และ WORLD เป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Source-Filter Vocoding และ WORLD ถือว่าคุณภาพ เวลาแฝง และความยินยอมเป็นส่วนสำคัญของกลยุทธ์การปรับใช้ โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในขณะเดียวกัน การใช้ Voice ในทางที่ผิดและการแอบอ้างบุคคลอื่นก็มีความเสี่ยงเพิ่มขึ้นเมื่อไม่ได้รับความยินยอม แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของ Vocoding ของตัวกรองแหล่งที่มาและ WORLD

โวโคเดอร์ที่ประมวลผลสัญญาณบริสุทธิ์ส่วนใหญ่ถูกครอบงำโดยโวโคเดอร์แบบนิวรัล (HiFi-GAN, WaveRNN) เพื่อความเป็นธรรมชาติระดับบนสุด แต่ WORLD ก็ไม่ได้หายไป มันยังคงอยู่ได้ในฐานะส่วนหน้าที่รวดเร็วและเป็นมิตรกับ CPU ภายในไปป์ไลน์การแปลงเสียง เครื่องสังเคราะห์เสียงร้องเพลง และพื้นฐานการวิจัย และฟีเจอร์ F0-plus-spectral-envelope ยังคงป้อนโมเดลประสาทจำนวนมาก คาดหวังระบบไฮบริดที่พารามิเตอร์ที่ตีความได้สไตล์ WORLD นำทางตัวถอดรหัสประสาท ทำให้ผู้สร้างสามารถควบคุมระดับเสียงและจังหวะได้อย่างแม่นยำโดยไม่สูญเสียความสมจริง

การใช้งานจริงในโลกแห่งความเป็นจริง

เครื่องมือแปลงเสียงที่เปลี่ยนระดับเสียงและน้ำเสียงของผู้พูดโดยยังคงรักษาคำพูดให้เข้าใจได้

เครื่องสังเคราะห์เสียงร้องเพลง (เช่น ระบบนิเวศ UTAU/NNSVS) ที่สังเคราะห์โน้ตอีกครั้งในระดับเสียงสูงต่ำใหม่

ระบบแปลงข้อความเป็นคำพูดแบบพาราเมตริกที่สร้างสตรีม F0, สเปกตรัม และช่วงระยะเวลาก่อนการเข้ารหัส

พื้นฐานการวิจัยคำพูดสำหรับการเปลี่ยนระดับเสียง การยืดเวลา และการแก้ไขฉันทลักษณ์โดยไม่ต้องฝึกอบรมซ้ำ

รูปแบบการดำเนินงาน

Vocoding ของตัวกรองแหล่งที่มาและ WORLD ในทางปฏิบัติ

เครื่องมือแปลงเสียงที่เปลี่ยนระดับเสียงและน้ำเสียงของผู้พูดโดยยังคงรักษาคำพูดให้เข้าใจได้

เครื่องมือการแปลงเสียงที่เปลี่ยนระดับเสียงของผู้พูดในขณะที่รักษาคำพูดให้เข้าใจได้ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Vocoding ของตัวกรองแหล่งที่มาและ WORLD ในทางปฏิบัติ

เครื่องสังเคราะห์เสียงร้องเพลง (เช่น ระบบนิเวศ UTAU/NNSVS) ที่สังเคราะห์โน้ตอีกครั้งในระดับเสียงสูงต่ำใหม่

เครื่องสังเคราะห์เสียงร้องเพลง (เช่น ระบบนิเวศ UTAU/NNSVS) ที่สังเคราะห์โน้ตอีกครั้งในการเสนอใหม่ ทีมมักจะได้ผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Vocoding ของตัวกรองแหล่งที่มาและ WORLD ในทางปฏิบัติ

ระบบแปลงข้อความเป็นคำพูดแบบพาราเมตริกที่สร้างสตรีม F0, สเปกตรัม และช่วงเวลาก่อนการเข้ารหัส

ระบบการแปลงข้อความเป็นคำพูดแบบพาราเมตริกที่สร้างสตรีม F0, สเปกตรัม และช่วงเวลาก่อนการเข้ารหัส โดยปกติแล้วทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Vocoding ของตัวกรองแหล่งที่มาและ WORLD ในทางปฏิบัติ

พื้นฐานการวิจัยคำพูดสำหรับการเปลี่ยนระดับเสียง การยืดเวลา และการแก้ไขฉันทลักษณ์โดยไม่ต้องฝึกอบรมซ้ำ

เส้นฐานการวิจัยคำพูดสำหรับการเปลี่ยนระดับเสียง การยืดเวลา และการแก้ไขฉันทลักษณ์โดยไม่ต้องฝึกอบรมใหม่ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การใช้เสียงในทางที่ผิดและการแอบอ้างบุคคลอื่นมีความเสี่ยงเพิ่มขึ้นเมื่อขาดความยินยอม

!

ความแม่นยำอาจลดลงตามสำเนียง ภาษาถิ่น หรือสภาพแวดล้อมที่มีเสียงดัง

!

เสียงสังเคราะห์อาจถูกเข้าใจผิดว่าเป็นเสียงพูดที่แท้จริงโดยไม่มีการกำกับที่ชัดเจน

แผนงานการดำเนินงาน

1

ได้รับความยินยอมอย่างชัดแจ้งสำหรับการจับเสียง การโคลน และการใช้ซ้ำ

ได้รับความยินยอมอย่างชัดแจ้งสำหรับการจับเสียง การโคลน และการใช้ซ้ำ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบคุณภาพกับลำโพงและสภาพพื้นหลังที่หลากหลาย

ทดสอบคุณภาพกับลำโพงและสภาพพื้นหลังที่หลากหลาย ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

กำหนดเวลาที่มนุษย์จะต้องตรวจสอบหรืออนุมัติผลลัพธ์

กำหนดเวลาที่มนุษย์จะต้องตรวจสอบหรืออนุมัติผลลัพธ์ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดป้ายกำกับเสียงสังเคราะห์และเก็บบันทึกที่มาเพื่อความรับผิดชอบ

ติดป้ายกำกับเสียงสังเคราะห์และเก็บบันทึกที่มาเพื่อความรับผิดชอบ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป