คู่มือการสร้างเสียงแบบขนาน SoundStorm

ภาพรวม

SoundStorm คือโมเดลการสร้างเสียง Google ที่สร้างเสียงพูดและเสียงแบบขนานแทนที่จะเป็นโทเค็นทีละอัน ทำให้การสังเคราะห์เสียงคุณภาพสูงเร็วขึ้นอย่างมาก เป็นเรื่องสำคัญเนื่องจากจะลดเวลาแฝงในการสร้างคลิปที่ยาวจากนาทีเหลือเพียงวินาทีโดยไม่สูญเสียความเที่ยงตรง

SoundStorm Parallel Audio Generation ตั้งอยู่ในเวิร์กโฟลว์เสียง-AI ที่แปลงคำพูด เพลง และเสียงเพื่อการสื่อสาร การเข้าถึง และการผลิตสื่อ

เจาะลึก

SoundStorm เปิดตัวโดย Google ในปี 2023 สร้างเสียงที่แสดงเป็นโทเค็นอะคูสติกแบบแยกจากตัวแปลงสัญญาณประสาทที่เรียกว่า SoundStream รุ่นก่อนหน้านี้ เช่น AudioLM จะสร้างโทเค็นเหล่านี้แบบถดถอยอัตโนมัติ โดยคาดการณ์แต่ละโทเค็นตามลำดับ ซึ่งจะช้าสำหรับเสียงที่ยาว SoundStorm ใช้วิธีการมาสก์แบบไม่ถอยหลังอัตโนมัติแทน ซึ่งยืมมาจากโมเดลการสร้างภาพ เช่น MaskGIT มันเริ่มต้นด้วยโทเค็นที่ถูกปกปิดเป็นส่วนใหญ่ และเติมโทเค็นเหล่านั้นซ้ำๆ ในขั้นตอนการถอดรหัสหลายขั้นตอน โดยทำนายโทเค็นหลายรายการพร้อมกัน เมื่อปรับสภาพด้วยโทเค็นความหมาย (จากโมเดลอย่าง AudioLM หรือ SPEAR-TTS) มันสามารถสังเคราะห์บทสนทนาที่เป็นธรรมชาติ 30 วินาทีในเวลาประมาณครึ่งวินาทีบน TPU ซึ่งเร็วกว่าเส้นฐานแบบถอยหลังอัตโนมัติประมาณ 100 เท่า ในขณะเดียวกันก็จับคู่คุณภาพและความสม่ำเสมอของลำโพง

ข้อมูลเชิงลึกทางเทคนิค

SoundStorm จำลองลำดับชั้นของระดับเวกเตอร์ควอนตัมตกค้าง (RVQ) จาก SoundStream ในระหว่างการฝึก โทเค็นแบบสุ่มจะถูกปกปิด และโมเดลเรียนรู้ที่จะทำนายโทเค็นเหล่านั้น ในการอนุมาน ระบบจะทำการถอดรหัสแบบคู่ขนานตามความมั่นใจ โดยในการวนซ้ำแต่ละครั้ง ระบบจะคาดการณ์โทเค็นที่ถูกปกปิดทั้งหมด เก็บโทเค็นที่มีความมั่นใจมากที่สุด และมาสก์ส่วนที่เหลืออีกครั้ง โดยจะถอดรหัสระดับ RVQ แบบหยาบก่อน จากนั้นค่อยถอดรหัส เพื่อให้ได้เสียงเต็มรูปแบบในขั้นตอนที่น้อยกว่าการสร้างโทเค็นต่อโทเค็นมาก

การเรียนรู้การสร้างเสียงแบบขนาน SoundStorm

หากต้องการสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า SoundStorm Parallel Audio Generation เป็นโมเดลการทำงาน ไม่ใช่ฟีเจอร์เดียว กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ SoundStorm Parallel Audio Generation จะถือว่าคุณภาพ เวลาแฝง และความยินยอมเป็นส่วนสำคัญของกลยุทธ์การปรับใช้ โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในขณะเดียวกัน การใช้ Voice ในทางที่ผิดและการแอบอ้างบุคคลอื่นก็มีความเสี่ยงเพิ่มขึ้นเมื่อไม่ได้รับความยินยอม แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการสร้างเสียงแบบขนาน SoundStorm

การถอดรหัสแบบมาส์กคู่ขนานกำลังกลายเป็นเครื่องมือมาตรฐานสำหรับเสียงที่รวดเร็วและควบคุมได้ คาดว่าจะเพิ่มพลังให้กับตัวแทนการสนทนาแบบเรียลไทม์ การสังเคราะห์เสียงทันที และการสร้างพอดแคสต์หรือหนังสือเสียงในรูปแบบยาว ซึ่งเมื่อเวลาแฝงทำให้โมเดลการถดถอยอัตโนมัติทำไม่ได้ เมื่อรวมเข้ากับเงื่อนไขความหมายและลายน้ำที่แข็งแกร่งยิ่งขึ้น จะปรับปรุงความสมจริงของบทสนทนาและความสามารถในการตรวจสอบย้อนกลับ แนวคิดการปรับปรุงซ้ำแบบเดียวกันนี้มีแนวโน้มที่จะผสานเข้ากับแนวทางการแพร่กระจาย ซึ่งทำให้เส้นแบ่งระหว่างตัวแปลงสัญญาณโทเค็นและเครื่องกำเนิดเสียงต่อเนื่องไม่ชัดเจน

การใช้งานจริงในโลกแห่งความเป็นจริง

สร้างบทสนทนาพูด 30 วินาทีสำหรับผู้ช่วยเสียง AI ภายในไม่ถึงวินาที

การสังเคราะห์การสนทนาหลายรอบด้วยเสียงของผู้พูดที่สอดคล้องกันสำหรับการสร้างต้นแบบ

ขับเคลื่อนการอ่านออกเสียงข้อความที่มีความหน่วงต่ำในเอเจนต์เชิงโต้ตอบที่โมเดลการถดถอยอัตโนมัติล่าช้า

สร้างเสียงบรรยายในรูปแบบยาวได้อย่างรวดเร็วโดยการเติมโทเค็นเสียงแบบคู่ขนาน

รูปแบบการดำเนินงาน

การสร้างเสียงแบบขนาน SoundStorm ในทางปฏิบัติ

สร้างบทสนทนาพูด 30 วินาทีสำหรับผู้ช่วยเสียง AI ภายในไม่ถึงวินาที

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การสร้างเสียงแบบขนาน SoundStorm ในทางปฏิบัติ

การสังเคราะห์การสนทนาหลายรอบด้วยเสียงของผู้พูดที่สอดคล้องกันสำหรับการสร้างต้นแบบ

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การสร้างเสียงแบบขนาน SoundStorm ในทางปฏิบัติ

ขับเคลื่อนการอ่านออกเสียงข้อความที่มีความหน่วงต่ำในเอเจนต์เชิงโต้ตอบที่โมเดลการถดถอยอัตโนมัติล่าช้า

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การสร้างเสียงแบบขนาน SoundStorm ในทางปฏิบัติ

สร้างเสียงบรรยายในรูปแบบยาวได้อย่างรวดเร็วโดยการเติมโทเค็นเสียงแบบคู่ขนาน

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การใช้เสียงในทางที่ผิดและการแอบอ้างบุคคลอื่นมีความเสี่ยงเพิ่มขึ้นเมื่อขาดความยินยอม

!

ความแม่นยำอาจลดลงตามสำเนียง ภาษาถิ่น หรือสภาพแวดล้อมที่มีเสียงดัง

!

เสียงสังเคราะห์อาจถูกเข้าใจผิดว่าเป็นเสียงพูดที่แท้จริงโดยไม่มีการกำกับที่ชัดเจน

แผนงานการดำเนินงาน

1

ได้รับความยินยอมอย่างชัดแจ้งสำหรับการจับเสียง การโคลน และการใช้ซ้ำ

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบคุณภาพกับลำโพงและสภาพพื้นหลังที่หลากหลาย

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

กำหนดเวลาที่มนุษย์จะต้องตรวจสอบหรืออนุมัติผลลัพธ์

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดป้ายกำกับเสียงสังเคราะห์และเก็บบันทึกที่มาเพื่อความรับผิดชอบ

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป

เสียงเอไอ

เรียนรู้ว่าระบบคำพูดจดจำและสร้างภาษาได้อย่างไร

อ่านคู่มือ

เอไอ มิวสิค

ทำความเข้าใจเครื่องมือและข้อจำกัดในการสร้างดนตรียุคใหม่

อ่านคู่มือ

การสร้างเสียงแบบขนาน SoundStorm

ภาพรวม

เจาะลึก

ข้อมูลเชิงลึกทางเทคนิค

การเรียนรู้การสร้างเสียงแบบขนาน SoundStorm

ผลกระทบเชิงกลยุทธ์

อนาคตของการสร้างเสียงแบบขนาน SoundStorm

การใช้งานจริงในโลกแห่งความเป็นจริง

รูปแบบการดำเนินงาน

การสร้างเสียงแบบขนาน SoundStorm ในทางปฏิบัติ

การสร้างเสียงแบบขนาน SoundStorm ในทางปฏิบัติ

การสร้างเสียงแบบขนาน SoundStorm ในทางปฏิบัติ

การสร้างเสียงแบบขนาน SoundStorm ในทางปฏิบัติ

ความเสี่ยงและรั้ว

แผนงานการดำเนินงาน

สำรวจต่อไป

เสียงเอไอ

เอไอ มิวสิค

Related guides