Vocoding ตัวกรองแหล่งที่มาและคู่มือ WORLD

ภาพรวม

โวโคเดอร์เป็นเครื่องมือที่แยกคำพูดออกเป็นองค์ประกอบหลักแล้วสร้างใหม่ โมเดลตัวกรองแหล่งที่มาและตัวแปลงเสียง WORLD เป็นวิธีการแบบคลาสสิกที่ขับเคลื่อนการแปลงข้อความเป็นคำพูดและเสียงโดยแยกสิ่งที่สายเสียงของคุณทำออกจากรูปร่างปากของคุณ

Vocoding ตัวกรองแหล่งที่มาและ WORLD ตั้งอยู่ในเวิร์กโฟลว์เสียง-AI ที่แปลงคำพูด เพลง และเสียงเพื่อการสื่อสาร การเข้าถึง และการผลิตสื่อ

เจาะลึก

โมเดลตัวกรองแหล่งที่มาอธิบายคำพูดเป็นสองส่วนทำงานร่วมกัน: แหล่งที่มา (เสียงกระหึ่มจากเส้นเสียงที่สั่นสำหรับเสียงที่เปล่งออกมา หรืออากาศที่มีเสียงดังสำหรับเสียงกระซิบและพยัญชนะ) ผ่านตัวกรอง (รูปร่างที่ก้องกังวานของลำคอ ปาก และจมูก) ตัวแปลงเสียงจะวิเคราะห์เสียงที่บันทึกไว้เพื่อประมาณค่าชิ้นส่วนเหล่านี้ จากนั้นจึงสังเคราะห์เสียงใหม่จากเสียงเหล่านั้น WORLD ซึ่งเปิดตัวโดย Masanori Morise ประมาณปี 2016 เป็นโวโคเดอร์คุณภาพสูงที่แยกพารามิเตอร์ 3 ตัว ได้แก่ F0 (รูปร่างของระดับเสียงของแหล่งกำเนิด) เปลือกสเปกตรัม (ตัวกรอง ผ่านอัลกอริธึม CheapTrick) และค่าความสม่ำเสมอ (ปริมาณนอยส์เทียบกับโทนเสียง ผ่านทาง PLATINUM/D4C) สตรีมทั้งสามนี้สามารถปรับเปลี่ยนได้อย่างอิสระแล้วจึงสังเคราะห์ใหม่ ทำให้ WORLD เป็นเหมือนเครื่องมือสำหรับ Parametric TTS และระบบเสียงร้องเพลง

ข้อมูลเชิงลึกทางเทคนิค

พลังของโลกมาจากการแบ่งแยกที่สะอาด CheapTrick ประมาณการขอบเขตสเปกตรัมที่ราบรื่นซึ่งทนทานต่อข้อผิดพลาด F0 เล็กน้อย ในขณะที่ระยะพิทช์ของแทร็ก DIO/Harvest และ D4C จะวัดค่าความไม่สม่ำเสมอของแถบความถี่ เนื่องจากระดับเสียงสูงต่ำ ต่ำ และเสียงนอยส์อยู่ในสตรีมพารามิเตอร์ที่แยกจากกัน คุณสามารถเลื่อน F0 ขึ้นหนึ่งอ็อกเทฟได้โดยไม่ต้องเปลี่ยนลักษณะของเสียง หรือขยายระยะเวลาโดยไม่ต้องเปลี่ยนระดับเสียงสูงต่ำ ตัวเข้ารหัสประสาทอย่าง WaveNet ได้สร้างแบบจำลองรูปแบบของคลื่นโดยตรงในภายหลัง แต่ WORLD ยังคงรวดเร็ว ตีความได้ และไม่มีใบอนุญาต

การเรียนรู้ Vocoding ตัวกรองแหล่งที่มาและ WORLD

เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Source-Filter Vocoding และ WORLD เป็นรูปแบบการทำงาน ไม่ใช่คุณลักษณะเดียว กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Source-Filter Vocoding และ WORLD ถือว่าคุณภาพ เวลาแฝง และความยินยอมเป็นส่วนสำคัญของกลยุทธ์การปรับใช้ โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในขณะเดียวกัน การใช้ Voice ในทางที่ผิดและการแอบอ้างบุคคลอื่นก็มีความเสี่ยงเพิ่มขึ้นเมื่อไม่ได้รับความยินยอม แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของ Vocoding ของตัวกรองแหล่งที่มาและ WORLD

โวโคเดอร์ที่ประมวลผลสัญญาณบริสุทธิ์ส่วนใหญ่ถูกครอบงำโดยโวโคเดอร์แบบนิวรัล (HiFi-GAN, WaveRNN) เพื่อความเป็นธรรมชาติระดับบนสุด แต่ WORLD ก็ไม่ได้หายไป มันยังคงอยู่ได้ในฐานะส่วนหน้าที่รวดเร็วและเป็นมิตรกับ CPU ภายในไปป์ไลน์การแปลงเสียง เครื่องสังเคราะห์เสียงร้องเพลง และพื้นฐานการวิจัย และฟีเจอร์ F0-plus-spectral-envelope ยังคงป้อนโมเดลประสาทจำนวนมาก คาดหวังระบบไฮบริดที่พารามิเตอร์ที่ตีความได้สไตล์ WORLD นำทางตัวถอดรหัสประสาท ทำให้ผู้สร้างสามารถควบคุมระดับเสียงและจังหวะได้อย่างแม่นยำโดยไม่สูญเสียความสมจริง

การใช้งานจริงในโลกแห่งความเป็นจริง

เครื่องมือแปลงเสียงที่เปลี่ยนระดับเสียงและน้ำเสียงของผู้พูดโดยยังคงรักษาคำพูดให้เข้าใจได้

เครื่องสังเคราะห์เสียงร้องเพลง (เช่น ระบบนิเวศ UTAU/NNSVS) ที่สังเคราะห์โน้ตอีกครั้งในระดับเสียงสูงต่ำใหม่

ระบบแปลงข้อความเป็นคำพูดแบบพาราเมตริกที่สร้างสตรีม F0, สเปกตรัม และช่วงระยะเวลาก่อนการเข้ารหัส

พื้นฐานการวิจัยคำพูดสำหรับการเปลี่ยนระดับเสียง การยืดเวลา และการแก้ไขฉันทลักษณ์โดยไม่ต้องฝึกอบรมซ้ำ

รูปแบบการดำเนินงาน

Vocoding ของตัวกรองแหล่งที่มาและ WORLD ในทางปฏิบัติ

เครื่องมือแปลงเสียงที่เปลี่ยนระดับเสียงและน้ำเสียงของผู้พูดโดยยังคงรักษาคำพูดให้เข้าใจได้

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Vocoding ของตัวกรองแหล่งที่มาและ WORLD ในทางปฏิบัติ

เครื่องสังเคราะห์เสียงร้องเพลง (เช่น ระบบนิเวศ UTAU/NNSVS) ที่สังเคราะห์โน้ตอีกครั้งในระดับเสียงสูงต่ำใหม่

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Vocoding ของตัวกรองแหล่งที่มาและ WORLD ในทางปฏิบัติ

ระบบแปลงข้อความเป็นคำพูดแบบพาราเมตริกที่สร้างสตรีม F0, สเปกตรัม และช่วงเวลาก่อนการเข้ารหัส

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Vocoding ของตัวกรองแหล่งที่มาและ WORLD ในทางปฏิบัติ

พื้นฐานการวิจัยคำพูดสำหรับการเปลี่ยนระดับเสียง การยืดเวลา และการแก้ไขฉันทลักษณ์โดยไม่ต้องฝึกอบรมซ้ำ

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การใช้เสียงในทางที่ผิดและการแอบอ้างบุคคลอื่นมีความเสี่ยงเพิ่มขึ้นเมื่อขาดความยินยอม

!

ความแม่นยำอาจลดลงตามสำเนียง ภาษาถิ่น หรือสภาพแวดล้อมที่มีเสียงดัง

!

เสียงสังเคราะห์อาจถูกเข้าใจผิดว่าเป็นเสียงพูดที่แท้จริงโดยไม่มีการกำกับที่ชัดเจน

แผนงานการดำเนินงาน

1

ได้รับความยินยอมอย่างชัดแจ้งสำหรับการจับเสียง การโคลน และการใช้ซ้ำ

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบคุณภาพกับลำโพงและสภาพพื้นหลังที่หลากหลาย

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

กำหนดเวลาที่มนุษย์จะต้องตรวจสอบหรืออนุมัติผลลัพธ์

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดป้ายกำกับเสียงสังเคราะห์และเก็บบันทึกที่มาเพื่อความรับผิดชอบ

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป

เสียงเอไอ

เรียนรู้ว่าระบบคำพูดจดจำและสร้างภาษาได้อย่างไร

อ่านคู่มือ

เอไอ มิวสิค

ทำความเข้าใจเครื่องมือและข้อจำกัดในการสร้างดนตรียุคใหม่

อ่านคู่มือ

Vocoding ตัวกรองแหล่งที่มาและ WORLD

ภาพรวม

เจาะลึก

ข้อมูลเชิงลึกทางเทคนิค

การเรียนรู้ Vocoding ตัวกรองแหล่งที่มาและ WORLD

ผลกระทบเชิงกลยุทธ์

อนาคตของ Vocoding ของตัวกรองแหล่งที่มาและ WORLD

การใช้งานจริงในโลกแห่งความเป็นจริง

รูปแบบการดำเนินงาน

Vocoding ของตัวกรองแหล่งที่มาและ WORLD ในทางปฏิบัติ

Vocoding ของตัวกรองแหล่งที่มาและ WORLD ในทางปฏิบัติ

Vocoding ของตัวกรองแหล่งที่มาและ WORLD ในทางปฏิบัติ

Vocoding ของตัวกรองแหล่งที่มาและ WORLD ในทางปฏิบัติ

ความเสี่ยงและรั้ว

แผนงานการดำเนินงาน

สำรวจต่อไป

เสียงเอไอ

เอไอ มิวสิค

Related guides