คู่มือตัวแปลงสัญญาณประสาท SoundStream

ภาพรวม

SoundStream คือตัวแปลงสัญญาณเสียงแบบนิวรอลแบบครบวงจรของ Google ที่บีบอัดคำพูดและเพลงให้มีบิตเรตต่ำมากโดยยังคงคุณภาพไว้ เป็นเรื่องสำคัญเนื่องจากสามารถเอาชนะตัวแปลงสัญญาณแบบดั้งเดิมอย่าง Opus ได้ที่บิตเรตเดียวกัน และขับเคลื่อนโมเดลเสียงสมัยใหม่

SoundStream Neural Codec อยู่ในเวิร์กโฟลว์เสียง-AI ที่แปลงคำพูด เพลง และเสียงเพื่อการสื่อสาร การเข้าถึง และการผลิตสื่อ

เจาะลึก

SoundStream เปิดตัวโดย Google ในปี 2021 โดยเป็นตัวแปลงสัญญาณแบบนิวรัลที่สมบูรณ์ซึ่งสร้างขึ้นจากชิ้นส่วนสามชิ้นที่ฝึกร่วมกัน ได้แก่ ตัวเข้ารหัสแบบหมุนวนที่เปลี่ยนรูปคลื่นดิบให้เป็นลำดับแบบกะทัดรัดของเวกเตอร์ ตัวควอนไทเซอร์เวกเตอร์ตกค้าง (RVQ) ที่แยกเวกเตอร์เหล่านั้นออก และเครื่องถอดรหัสแบบหมุนที่สร้างรูปคลื่นขึ้นมาใหม่ ได้รับการฝึกฝนทั้งการสูญเสียการฟื้นฟูและการแบ่งแยกฝ่ายตรงข้ามแบบ GAN ดังนั้นเอาต์พุตจึงฟังดูเป็นธรรมชาติมากกว่าแค่ปิดตัวเลข คุณลักษณะที่โดดเด่นคือ 'ปรับขนาดได้' หรือการฝึกแบบควอนไทเซอร์แบบออกกลางคัน: โมเดลเดียวสามารถทำงานได้ข้ามบิตเรตตั้งแต่ประมาณ 3 ถึง 18 kbps เพียงแค่ใช้เลเยอร์ควอนไทเซอร์มากขึ้นหรือน้อยลงในการอนุมาน โดยไม่มีการฝึกใหม่ มีรายงานว่าที่ความเร็ว 3 kbps มีประสิทธิภาพเหนือกว่า Opus ที่ 12 kbps ในการทดสอบการฟัง การจัดการคำพูด เพลง และเสียงทั่วไปในรุ่นเดียวที่ทำงานแบบเรียลไทม์บน CPU ของสมาร์ทโฟน

ข้อมูลเชิงลึกทางเทคนิค

รูปคลื่นจะผ่านผ่านการโน้มน้าวแบบก้าวย่างซึ่งสุ่มตัวอย่างอย่างหนัก ทำให้เกิดหนึ่งการฝังต่อเฟรม (เช่น 75 เฟรม/วินาที) จากนั้น RVQ จะเข้ารหัสการฝังแต่ละรายการเป็นดัชนีสมุดโค้ดแบบสแต็ก บิตเรตเท่ากับอัตราเฟรมคูณจำนวนควอนไทเซอร์ที่ใช้งานอยู่คูณบิตต่อโค้ดบุ๊ค การออกกลางคันของ Quantizer จะตัดทอนสแต็ก RVQ แบบสุ่มระหว่างการฝึก โดยบังคับให้ Codebook รุ่นเก่าๆ ส่งข้อมูลที่สำคัญที่สุด ดังนั้นตัวแปลงสัญญาณจึงลดระดับลงอย่างสวยงามในอัตราที่ต่ำกว่า

การเรียนรู้ตัวแปลงสัญญาณประสาท SoundStream

หากต้องการสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า SoundStream Neural Codec เป็นเพียงโมเดลการทำงาน ไม่ใช่ฟีเจอร์เดียว กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ SoundStream Neural Codec จะถือว่าคุณภาพ เวลาแฝง และความยินยอมเป็นส่วนสำคัญของกลยุทธ์การปรับใช้ โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในขณะเดียวกัน การใช้ Voice ในทางที่ผิดและการแอบอ้างบุคคลอื่นก็มีความเสี่ยงเพิ่มขึ้นเมื่อไม่ได้รับความยินยอม แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของตัวแปลงสัญญาณประสาท SoundStream

SoundStream สร้างเทมเพลตที่ตัวแปลงสัญญาณในภายหลัง เช่น EnCodec และ DAC ได้รับการปรับปรุง และโทเค็นที่แยกจากกันของมันก็กลายเป็นต้นแบบสำหรับระบบกำเนิดเช่น AudioLM และ MusicLM คาดหวังว่าผู้สืบทอดจะผลักดันไปสู่บิตเรตที่ต่ำลง โทเค็นที่มีโครงสร้างเชิงความหมายซึ่งเพิ่มเป็นสองเท่าของอินพุตไปยังเครื่องกำเนิดเสียงในรูปแบบภาษา และการปรับใช้บนอุปกรณ์ที่เข้มงวดมากขึ้นสำหรับการโทรสด เครื่องช่วยฟัง และการสตรีมที่มีแบนด์วิดท์และเวลาแฝงถูกจำกัดอย่างเข้มงวด

การใช้งานจริงในโลกแห่งความเป็นจริง

บีบอัดการโทรด้วยเสียงเป็น ~3 kbps ในขณะที่ให้เสียงที่ชัดเจนกว่าตัวแปลงสัญญาณแบบเดิมที่บิตเรตที่สูงกว่า

การสร้างโทเค็นเสียงแยกที่ป้อนโมเดลกำเนิด AudioLM และ MusicLM ของ Google

การสตรีมเสียงแบนด์วิธต่ำแบบเรียลไทม์บนอุปกรณ์มือถือพร้อมการเข้ารหัสและถอดรหัสบน CPU

การจัดเก็บหรือส่งสัญญาณเพลงและเสียงรอบข้างอย่างมีประสิทธิภาพในรูปแบบเดียวที่รองรับเนื้อหาทุกประเภท

รูปแบบการดำเนินงาน

SoundStream Neural Codec ในทางปฏิบัติ

บีบอัดการโทรด้วยเสียงเป็น ~3 kbps ในขณะที่ให้เสียงที่ชัดเจนกว่าตัวแปลงสัญญาณแบบเดิมที่บิตเรตที่สูงกว่า

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

SoundStream Neural Codec ในทางปฏิบัติ

การสร้างโทเค็นเสียงแยกที่ป้อนโมเดลการสร้าง AudioLM และ MusicLM ของ Google

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

SoundStream Neural Codec ในทางปฏิบัติ

การสตรีมเสียงแบนด์วิธต่ำแบบเรียลไทม์บนอุปกรณ์มือถือพร้อมการเข้ารหัสและถอดรหัสบน CPU

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

SoundStream Neural Codec ในทางปฏิบัติ

การจัดเก็บหรือส่งสัญญาณเพลงและเสียงรอบข้างอย่างมีประสิทธิภาพในรูปแบบเดียวที่รองรับเนื้อหาทุกประเภท

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การใช้เสียงในทางที่ผิดและการแอบอ้างบุคคลอื่นมีความเสี่ยงเพิ่มขึ้นเมื่อขาดความยินยอม

!

ความแม่นยำอาจลดลงตามสำเนียง ภาษาถิ่น หรือสภาพแวดล้อมที่มีเสียงดัง

!

เสียงสังเคราะห์อาจถูกเข้าใจผิดว่าเป็นเสียงพูดที่แท้จริงโดยไม่มีการกำกับที่ชัดเจน

แผนงานการดำเนินงาน

1

ได้รับความยินยอมอย่างชัดแจ้งสำหรับการจับเสียง การโคลน และการใช้ซ้ำ

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบคุณภาพกับลำโพงและสภาพพื้นหลังที่หลากหลาย

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

กำหนดเวลาที่มนุษย์จะต้องตรวจสอบหรืออนุมัติผลลัพธ์

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดป้ายกำกับเสียงสังเคราะห์และเก็บบันทึกที่มาเพื่อความรับผิดชอบ

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป

เสียงเอไอ

เรียนรู้ว่าระบบคำพูดจดจำและสร้างภาษาได้อย่างไร

อ่านคู่มือ

เอไอ มิวสิค

ทำความเข้าใจเครื่องมือและข้อจำกัดในการสร้างดนตรียุคใหม่

อ่านคู่มือ

SoundStream ตัวแปลงสัญญาณประสาท

ภาพรวม

เจาะลึก

ข้อมูลเชิงลึกทางเทคนิค

การเรียนรู้ตัวแปลงสัญญาณประสาท SoundStream

ผลกระทบเชิงกลยุทธ์

อนาคตของตัวแปลงสัญญาณประสาท SoundStream

การใช้งานจริงในโลกแห่งความเป็นจริง

รูปแบบการดำเนินงาน

SoundStream Neural Codec ในทางปฏิบัติ

SoundStream Neural Codec ในทางปฏิบัติ

SoundStream Neural Codec ในทางปฏิบัติ

SoundStream Neural Codec ในทางปฏิบัติ

ความเสี่ยงและรั้ว

แผนงานการดำเนินงาน

สำรวจต่อไป

เสียงเอไอ

เอไอ มิวสิค

Related guides