คู่มือเสียง AI

StyleTTS 2 การกระจายสไตล์

StyleTTS 2 เป็นโมเดลการแปลงข้อความเป็นคำพูดที่ถือว่า 'สไตล์' ของเสียง — ฉันทลักษณ์ อารมณ์ และเสียงของผู้พูด — เป็นตัวแปรสุ่มสุ่มตัวอย่างด้วยโมเดลการแพร่กระจาย จากนั้นสังเคราะห์เสียงด้วยการฝึกอบรมฝ่ายตรงข้ามกับโมเดลภาษาพูดขนาดใหญ่

ภาพรวม

StyleTTS 2 เป็นโมเดลการแปลงข้อความเป็นคำพูดที่ถือว่า 'สไตล์' ของเสียง — ฉันทลักษณ์ อารมณ์ และเสียงของผู้พูด — เป็นตัวแปรสุ่มสุ่มตัวอย่างด้วยโมเดลการแพร่กระจาย จากนั้นสังเคราะห์เสียงด้วยการฝึกอบรมฝ่ายตรงข้ามกับโมเดลภาษาพูดขนาดใหญ่ เป็นเรื่องสำคัญเนื่องจากสามารถบรรลุความเป็นธรรมชาติในระดับมนุษย์ในการวัดประสิทธิภาพด้วยลำโพงเดี่ยวโดยไม่จำเป็นต้องใช้คลิปอ้างอิงในเวลาอนุมาน

StyleTTS 2 Style Diffusion ตั้งอยู่ในเวิร์กโฟลว์เสียง-AI ที่แปลงคำพูด ดนตรี และเสียงเพื่อการสื่อสาร การเข้าถึง และการผลิตสื่อ

เจาะลึก

StyleTTS 2 ซึ่งเปิดตัวในปี 2023 โดยนักวิจัยจากมหาวิทยาลัยโคลัมเบีย สร้างคำพูดโดยการสุ่มตัวอย่าง 'สไตล์เวกเตอร์' ที่แฝงอยู่เป็นครั้งแรก โดยใช้กระบวนการแพร่กระจายที่มีเงื่อนไขเฉพาะในข้อความอินพุต จากนั้นถอดรหัสสไตล์นั้นบวกกับหน่วยเสียงให้กลายเป็นรูปคลื่น เวกเตอร์ลักษณะจะควบคุมทุกสิ่งที่ไม่ได้เขียนไว้ในข้อความ: อัตราการพูด เส้นขอบน้ำเสียง การหยุดชั่วคราว และการระบายสีตามอารมณ์ สิ่งสำคัญที่สุดคือเพิ่มการฝึกอบรมฝ่ายตรงข้ามด้วยโมเดลภาษาคำพูดที่ได้รับการฝึกอบรมล่วงหน้าขนาดใหญ่ (WavLM) เป็นตัวแยกแยะ โดยผลักดันเอาต์พุตไปสู่เสียงที่ฟังดูเหมือนมนุษย์อย่างแท้จริง ในเกณฑ์มาตรฐาน LJSpeech นั้นเหนือกว่าการบันทึกของมนุษย์ในการให้คะแนนผู้ฟัง และใน LibriTTS ที่มีลำโพงหลายตัวก็ตั้งค่าให้ตรงกับความจริงภาคพื้นดิน ซึ่งเป็นหลักชัยสำคัญสำหรับคุณภาพ TTS ประสาทตั้งแต่ต้นทางถึงปลายทาง

ข้อมูลเชิงลึกทางเทคนิค

เคล็ดลับสำคัญคือการกระจายรูปแบบ: แทนที่จะทำนายฉันทลักษณ์คงที่ รูปแบบ StyleTTS 2 เป็นการแจกแจงความน่าจะเป็นและสุ่มตัวอย่างจากแบบจำลองผ่านแบบจำลองการแพร่กระจายที่ทำงานในพื้นที่แฝงในมิติต่ำ ดังนั้นประโยคเดียวกันจึงสามารถพูดได้ด้วยวิธีธรรมชาติมากมาย จากต้นทางถึงปลายทาง ตัวทำนายระยะเวลา ตัวเข้ารหัสรูปแบบ ตัวถอดรหัส และตัวแยกแยะฝ่ายตรงข้ามที่ใช้ WavLM ได้รับการฝึกอบรมร่วมกัน เพื่อให้การไล่ระดับสีไหลจากคุณภาพของรูปคลื่นกลับมาตลอดทั้งไปป์ไลน์

การเรียนรู้สไตล์ TTS 2 การแพร่กระจายสไตล์

StyleTTS 2 เป็นโมเดลการแปลงข้อความเป็นคำพูดที่ถือว่า 'สไตล์' ของเสียง — ฉันทลักษณ์ อารมณ์ และเสียงของผู้พูด — เป็นตัวแปรสุ่มสุ่มตัวอย่างด้วยโมเดลการแพร่กระจาย จากนั้นสังเคราะห์เสียงด้วยการฝึกอบรมฝ่ายตรงข้ามกับโมเดลภาษาพูดขนาดใหญ่ เป็นเรื่องสำคัญเนื่องจากสามารถบรรลุความเป็นธรรมชาติในระดับมนุษย์ในการวัดประสิทธิภาพด้วยลำโพงเดี่ยวโดยไม่จำเป็นต้องใช้คลิปอ้างอิงในเวลาอนุมาน StyleTTS 2 Style Diffusion ตั้งอยู่ในเวิร์กโฟลว์เสียง-AI ที่แปลงคำพูด ดนตรี และเสียงเพื่อการสื่อสาร การเข้าถึง และการผลิตสื่อ หากต้องการสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า StyleTTS 2 Style Diffusion เป็นเพียงแบบจำลองการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ StyleTTS 2 Style Diffusion จะถือว่าคุณภาพ เวลาแฝง และความยินยอมเป็นส่วนสำคัญของกลยุทธ์การปรับใช้ โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในขณะเดียวกัน การใช้ Voice ในทางที่ผิดและการแอบอ้างบุคคลอื่นก็มีความเสี่ยงเพิ่มขึ้นเมื่อไม่ได้รับความยินยอม แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการกระจายสไตล์ StyleTTS 2

คาดว่าการกระจายสไตล์จะผสานเข้ากับการโคลนเสียงแบบ Zero-shot ดังนั้นเสียงอ้างอิงเพียงไม่กี่วินาทีจะนำทางสไตล์ตัวอย่าง และมีที่จับที่ควบคุมได้ซึ่งช่วยให้ผู้สร้างกำหนดอารมณ์ การเน้น หรือจังหวะได้อย่างชัดเจน เวอร์ชันกลั่นที่เบากว่ามุ่งหวังที่จะตัดการสุ่มตัวอย่างแบบแพร่หลายขั้นตอนสำหรับการใช้งานแบบเรียลไทม์บนอุปกรณ์ เมื่อโมเดลเหล่านี้เข้าถึงคุณภาพการออกอากาศ การตรวจสอบลายน้ำและความยินยอมจะกลายเป็นมาตรฐานเพื่อจัดการกับข้อกังวลเรื่องการปลอมแปลงเสียงและการใช้งานในทางที่ผิด

การใช้งานจริงในโลกแห่งความเป็นจริง

การสร้างคำบรรยายในหนังสือเสียงโดยที่ผู้พูดคนเดียวกันเปลี่ยนฉันทลักษณ์ตามบทต่างๆ แทนที่จะเป็นเสียงเดียว

สร้างเสียงตัวละครที่แสดงออกสำหรับเกมอินดี้และแอนิเมชั่นโดยไม่ต้องจ้างนักพากย์หลายคน

ขับเคลื่อนโปรแกรมอ่านหน้าจอการเข้าถึงที่ฟังดูเป็นมนุษย์เพียงพอสำหรับการฟังแบบยาว

การสร้างเสียงพากย์อีเลิร์นนิงที่แปลเป็นภาษาท้องถิ่นโดยเน้นและเว้นจังหวะอย่างเป็นธรรมชาติจากข้อความสคริปต์ธรรมดา

รูปแบบการดำเนินงาน

StyleTTS 2 การแพร่กระจายสไตล์ในทางปฏิบัติ

การสร้างคำบรรยายในหนังสือเสียงโดยที่ผู้พูดคนเดียวกันเปลี่ยนฉันทลักษณ์ตามบทต่างๆ แทนที่จะเป็นเสียงเดียว

การสร้างคำบรรยายในหนังสือเสียงโดยที่ผู้พูดคนเดียวกันเปลี่ยนฉันทลักษณ์ตามบทต่างๆ แทนที่จะใช้เสียงเดียว ทีมมักจะได้ผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

StyleTTS 2 การแพร่กระจายสไตล์ในทางปฏิบัติ

สร้างเสียงตัวละครที่แสดงออกสำหรับเกมอินดี้และแอนิเมชั่นโดยไม่ต้องจ้างนักพากย์หลายคน

การสร้างเสียงตัวละครที่แสดงออกสำหรับเกมอินดี้และแอนิเมชั่นโดยไม่ต้องจ้างนักพากย์หลายคน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

StyleTTS 2 การแพร่กระจายสไตล์ในทางปฏิบัติ

ขับเคลื่อนโปรแกรมอ่านหน้าจอการเข้าถึงที่ฟังดูเป็นมนุษย์เพียงพอสำหรับการฟังแบบยาว

การเพิ่มพลังให้กับโปรแกรมอ่านหน้าจอการช่วยสำหรับการเข้าถึงที่ฟังดูเป็นธรรมชาติเพียงพอสำหรับการฟังแบบยาว ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

StyleTTS 2 การแพร่กระจายสไตล์ในทางปฏิบัติ

การสร้างเสียงพากย์อีเลิร์นนิงที่แปลเป็นภาษาท้องถิ่นโดยเน้นและเว้นจังหวะอย่างเป็นธรรมชาติจากข้อความสคริปต์ธรรมดา

การสร้างเสียงพากย์อีเลิร์นนิงที่แปลเป็นภาษาท้องถิ่นโดยเน้นและเว้นจังหวะอย่างเป็นธรรมชาติจากข้อความสคริปต์ธรรมดา ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การใช้เสียงในทางที่ผิดและการแอบอ้างบุคคลอื่นมีความเสี่ยงเพิ่มขึ้นเมื่อขาดความยินยอม

!

ความแม่นยำอาจลดลงตามสำเนียง ภาษาถิ่น หรือสภาพแวดล้อมที่มีเสียงดัง

!

เสียงสังเคราะห์อาจถูกเข้าใจผิดว่าเป็นเสียงพูดที่แท้จริงโดยไม่มีการกำกับที่ชัดเจน

แผนงานการดำเนินงาน

1

ได้รับความยินยอมอย่างชัดแจ้งสำหรับการจับเสียง การโคลน และการใช้ซ้ำ

ได้รับความยินยอมอย่างชัดแจ้งสำหรับการจับเสียง การโคลน และการใช้ซ้ำ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบคุณภาพกับลำโพงและสภาพพื้นหลังที่หลากหลาย

ทดสอบคุณภาพกับลำโพงและสภาพพื้นหลังที่หลากหลาย ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

กำหนดเวลาที่มนุษย์จะต้องตรวจสอบหรืออนุมัติผลลัพธ์

กำหนดเวลาที่มนุษย์จะต้องตรวจสอบหรืออนุมัติผลลัพธ์ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดป้ายกำกับเสียงสังเคราะห์และเก็บบันทึกที่มาเพื่อความรับผิดชอบ

ติดป้ายกำกับเสียงสังเคราะห์และเก็บบันทึกที่มาเพื่อความรับผิดชอบ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป