คู่มือ TTS คำพูดที่เป็นธรรมชาติและการแพร่กระจายแฝง

ภาพรวม

NaturalSpeech เป็นกลุ่มงานวิจัยของ Microsoft TTS ที่มุ่งเป้าไปที่คุณภาพคำพูดในระดับมนุษย์ โดยเวอร์ชันต่อมาจะใช้การแพร่กระจายแบบแฝงเพื่อสร้างเสียงที่เข้มข้นและเป็นธรรมชาติ โดยแสดงให้เห็นว่าโมเดลการแพร่กระจายซึ่งมีชื่อเสียงในด้านรูปภาพ สามารถสร้างเสียงที่แสดงออกและควบคุมได้อย่างไร

NaturalSpeech และ Latent Diffusion TTS ตั้งอยู่ในเวิร์กโฟลว์เสียง-AI ที่แปลงคำพูด เพลง และเสียงเพื่อการสื่อสาร การเข้าถึง และการผลิตสื่อ

เจาะลึก

NaturalSpeech ดั้งเดิม (2022) เป็นระบบแรกที่รายงานว่ามีคุณภาพระดับมนุษย์ตามเกณฑ์มาตรฐาน LJSpeech ซึ่งตัดสินโดยผู้ฟังที่ไม่สามารถบอกได้อย่างน่าเชื่อถือจากการบันทึกจริง ใช้ตัวเข้ารหัสอัตโนมัติแบบแปรผันพร้อมคีย์เวิร์ดที่จับคู่อย่างระมัดระวังเพื่อปิดช่องว่างระหว่างการฝึกและการอนุมาน จากนั้น NaturalSpeech 2 จึงนำแนวทางการแพร่กระจายแบบแฝงมาใช้ โดยคำพูดจะถูกเข้ารหัสโดยตัวแปลงสัญญาณเสียงแบบนิวรัลให้เป็นเวกเตอร์แฝงแบบต่อเนื่อง และแบบจำลองการแพร่กระจายจะเรียนรู้ที่จะสร้างค่าแฝงเหล่านั้นจากข้อความ ซึ่งช่วยให้สามารถโคลนเสียงแบบ Zero-shot ที่แข็งแกร่งได้จากข้อความแจ้งสั้นๆ NaturalSpeech 3 นำเสนอการกระจายแบบแยกตัวประกอบ โดยแยกคำพูดออกเป็นคุณลักษณะที่ไม่พันกัน เช่น เนื้อหา ฉันทลักษณ์ จังหวะเสียง และรายละเอียดทางเสียง เพื่อให้แต่ละรายการสามารถสร้างแบบจำลองและควบคุมได้อย่างอิสระเพื่อความเที่ยงตรงและความยืดหยุ่นที่สูงขึ้น

ข้อมูลเชิงลึกทางเทคนิค

การแพร่กระจายแฝงทำงานโดยการเพิ่มเสียงรบกวนให้กับการแสดงคำพูดแฝงขนาดกะทัดรัด และฝึกเครือข่ายเพื่อย้อนกลับเสียงรบกวนนั้นทีละขั้นตอน แทนที่จะลดสัญญาณรบกวนของรูปคลื่นดิบหรือสเปกโตรแกรมแบบเต็ม NaturalSpeech 2 จะปฏิเสธค่าแฝงของโคเดกซึ่งมีมิติต่ำกว่าและง่ายต่อการสร้างแบบจำลอง การปรับเงื่อนไขข้อความและเสียงอ้างอิงจะควบคุมการแพร่กระจายแบบย้อนกลับ ดังนั้นค่าแฝงตัวอย่างสุดท้ายจึงถอดรหัสเป็นคำพูดที่ตรงกับเนื้อหาที่ร้องขอและข้อมูลประจำตัวของผู้พูด

เชี่ยวชาญการพูดแบบธรรมชาติและการแพร่กระจายแบบแฝง TTS

หากต้องการสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า NaturalSpeech และ Latent Diffusion TTS เป็นเพียงโมเดลการทำงาน ไม่ใช่ฟีเจอร์เดียว กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ NaturalSpeech และ Latent Diffusion TTS ถือว่าคุณภาพ เวลาแฝง และความยินยอมเป็นส่วนสำคัญของกลยุทธ์การปรับใช้ โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในขณะเดียวกัน การใช้ Voice ในทางที่ผิดและการแอบอ้างบุคคลอื่นก็มีความเสี่ยงเพิ่มขึ้นเมื่อไม่ได้รับความยินยอม แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของ TTS คำพูดที่เป็นธรรมชาติและการแพร่กระจายที่แฝงอยู่

TTS แบบกระจายและแยกตัวประกอบชี้ไปที่เสียงที่ไม่เพียงแต่เป็นธรรมชาติแต่ยังควบคุมทิศทางได้อย่างประณีต ทำให้ผู้ใช้สามารถปรับเสียงต่ำ อารมณ์ และเสียงฉันทลักษณ์ได้ตามแป้นหมุนอิสระ คาดหวังการสุ่มตัวอย่างที่รวดเร็วยิ่งขึ้นผ่านการกลั่นและการแพร่กระจายไม่กี่ขั้นตอน การโคลนแบบ Zero-shot ที่แข็งแกร่งขึ้นจากวินาทีของเสียง และการผสานรวมที่เข้มงวดยิ่งขึ้นกับโมเดลภาษาขนาดใหญ่สำหรับการจัดส่งแบบ Context-Aware ความก้าวหน้าเหล่านี้ยังเพิ่มความจำเป็นในการใส่ลายน้ำและการป้องกันการยินยอมเนื่องจากการโคลนที่มีความเที่ยงตรงสูงทำให้เกิดความเสี่ยงในการใช้งานในทางที่ผิดอย่างชัดเจน

การใช้งานจริงในโลกแห่งความเป็นจริง

สตูดิโอพากย์เสียงเลียนแบบเสียงของนักแสดงจากตัวอย่างสั้นๆ เพื่อแปลภาพยนตร์ โดยใช้การโคลนแบบ Zero-shot สไตล์ NaturalSpeech 2

แพลตฟอร์มหนังสือเสียงสร้างคำบรรยายในระดับมนุษย์ที่ผู้ฟังประสบปัญหาในการแยกความแตกต่างจากพรสวรรค์ด้านเสียงที่แท้จริง

เครื่องมือช่วยการเข้าถึงจะสร้างเสียงของบุคคลขึ้นมาใหม่จากการบันทึกเก่าๆ สำหรับผู้ที่สูญเสียคำพูด

ชุดการสร้างเนื้อหาช่วยให้ผู้แก้ไขสามารถปรับเสียงต่ำและเสียงฉันทลักษณ์ได้อย่างอิสระ โดยใช้ประโยชน์จากคุณลักษณะที่แยกตัวประกอบของ NaturalSpeech 3

รูปแบบการดำเนินงาน

NaturalSpeech และ Latent Diffusion TTS ในทางปฏิบัติ

สตูดิโอพากย์เสียงเลียนแบบเสียงของนักแสดงจากตัวอย่างสั้นๆ เพื่อแปลภาพยนตร์ โดยใช้การโคลนแบบ Zero-shot สไตล์ NaturalSpeech 2

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

NaturalSpeech และ Latent Diffusion TTS ในทางปฏิบัติ

แพลตฟอร์มหนังสือเสียงสร้างคำบรรยายในระดับมนุษย์ที่ผู้ฟังประสบปัญหาในการแยกความแตกต่างจากพรสวรรค์ด้านเสียงที่แท้จริง

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

NaturalSpeech และ Latent Diffusion TTS ในทางปฏิบัติ

เครื่องมือช่วยการเข้าถึงจะสร้างเสียงของบุคคลขึ้นมาใหม่จากการบันทึกเก่าๆ สำหรับผู้ที่สูญเสียคำพูด

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

NaturalSpeech และ Latent Diffusion TTS ในทางปฏิบัติ

ชุดการสร้างเนื้อหาช่วยให้ผู้แก้ไขสามารถปรับเสียงต่ำและเสียงฉันทลักษณ์ได้อย่างอิสระ โดยใช้ประโยชน์จากคุณลักษณะที่แยกตัวประกอบของ NaturalSpeech 3

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การใช้เสียงในทางที่ผิดและการแอบอ้างบุคคลอื่นมีความเสี่ยงเพิ่มขึ้นเมื่อขาดความยินยอม

!

ความแม่นยำอาจลดลงตามสำเนียง ภาษาถิ่น หรือสภาพแวดล้อมที่มีเสียงดัง

!

เสียงสังเคราะห์อาจถูกเข้าใจผิดว่าเป็นเสียงพูดที่แท้จริงโดยไม่มีการกำกับที่ชัดเจน

แผนงานการดำเนินงาน

1

ได้รับความยินยอมอย่างชัดแจ้งสำหรับการจับเสียง การโคลน และการใช้ซ้ำ

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบคุณภาพกับลำโพงและสภาพพื้นหลังที่หลากหลาย

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

กำหนดเวลาที่มนุษย์จะต้องตรวจสอบหรืออนุมัติผลลัพธ์

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดป้ายกำกับเสียงสังเคราะห์และเก็บบันทึกที่มาเพื่อความรับผิดชอบ

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป

เสียงเอไอ

เรียนรู้ว่าระบบคำพูดจดจำและสร้างภาษาได้อย่างไร

อ่านคู่มือ

เอไอ มิวสิค

ทำความเข้าใจเครื่องมือและข้อจำกัดในการสร้างดนตรียุคใหม่

อ่านคู่มือ

คำพูดที่เป็นธรรมชาติและการแพร่กระจายแฝง TTS

ภาพรวม

เจาะลึก

ข้อมูลเชิงลึกทางเทคนิค

เชี่ยวชาญการพูดแบบธรรมชาติและการแพร่กระจายแบบแฝง TTS

ผลกระทบเชิงกลยุทธ์

อนาคตของ TTS คำพูดที่เป็นธรรมชาติและการแพร่กระจายที่แฝงอยู่

การใช้งานจริงในโลกแห่งความเป็นจริง

รูปแบบการดำเนินงาน

NaturalSpeech และ Latent Diffusion TTS ในทางปฏิบัติ

NaturalSpeech และ Latent Diffusion TTS ในทางปฏิบัติ

NaturalSpeech และ Latent Diffusion TTS ในทางปฏิบัติ

NaturalSpeech และ Latent Diffusion TTS ในทางปฏิบัติ

ความเสี่ยงและรั้ว

แผนงานการดำเนินงาน

สำรวจต่อไป

เสียงเอไอ

เอไอ มิวสิค

Related guides