คู่มือเสียง AI

SoundStream ตัวแปลงสัญญาณประสาท

SoundStream คือตัวแปลงสัญญาณเสียงแบบนิวรอลแบบครบวงจรของ Google ที่บีบอัดคำพูดและเพลงให้มีบิตเรตต่ำมากโดยยังคงคุณภาพไว้

ภาพรวม

SoundStream คือตัวแปลงสัญญาณเสียงแบบนิวรอลแบบครบวงจรของ Google ที่บีบอัดคำพูดและเพลงให้มีบิตเรตต่ำมากโดยยังคงคุณภาพไว้ เป็นเรื่องสำคัญเนื่องจากสามารถเอาชนะตัวแปลงสัญญาณแบบดั้งเดิมอย่าง Opus ได้ที่บิตเรตเดียวกัน และขับเคลื่อนโมเดลเสียงสมัยใหม่

SoundStream Neural Codec อยู่ในเวิร์กโฟลว์เสียง-AI ที่แปลงคำพูด เพลง และเสียงเพื่อการสื่อสาร การเข้าถึง และการผลิตสื่อ

เจาะลึก

SoundStream เปิดตัวโดย Google ในปี 2021 โดยเป็นตัวแปลงสัญญาณแบบนิวรัลที่สมบูรณ์ซึ่งสร้างขึ้นจากสามส่วนที่ได้รับการฝึกร่วมกัน ได้แก่ ตัวเข้ารหัสแบบหมุนวนที่เปลี่ยนรูปคลื่นดิบให้เป็นลำดับขนาดกะทัดรัดของเวกเตอร์ ตัวควอนไทเซอร์เวกเตอร์ตกค้าง (RVQ) ที่แยกเวกเตอร์เหล่านั้นออก และเครื่องถอดรหัสแบบหมุนที่สร้างรูปคลื่นขึ้นมาใหม่ ได้รับการฝึกฝนทั้งการสูญเสียการฟื้นฟูและการแบ่งแยกฝ่ายตรงข้ามแบบ GAN ดังนั้นเอาต์พุตจึงฟังดูเป็นธรรมชาติมากกว่าแค่ปิดตัวเลข คุณลักษณะที่โดดเด่นคือ 'ปรับขนาดได้' หรือการฝึกแบบควอนไทเซอร์แบบออกกลางคัน: โมเดลเดียวสามารถทำงานได้ข้ามบิตเรตตั้งแต่ประมาณ 3 ถึง 18 kbps เพียงแค่ใช้เลเยอร์ควอนไทเซอร์มากขึ้นหรือน้อยลงในการอนุมาน โดยไม่มีการฝึกใหม่ มีรายงานว่าที่ความเร็ว 3 kbps มีประสิทธิภาพเหนือกว่า Opus ที่ 12 kbps ในการทดสอบการฟัง การจัดการคำพูด เพลง และเสียงทั่วไปในรุ่นเดียวที่ทำงานแบบเรียลไทม์บน CPU ของสมาร์ทโฟน

ข้อมูลเชิงลึกทางเทคนิค

รูปคลื่นจะผ่านผ่านการโน้มน้าวแบบก้าวย่างซึ่งสุ่มตัวอย่างอย่างหนัก ทำให้เกิดหนึ่งการฝังต่อเฟรม (เช่น 75 เฟรม/วินาที) จากนั้น RVQ จะเข้ารหัสการฝังแต่ละรายการเป็นดัชนีสมุดโค้ดแบบสแต็ก บิตเรตเท่ากับอัตราเฟรมคูณจำนวนควอนไทเซอร์ที่ใช้งานอยู่คูณบิตต่อโค้ดบุ๊ค การออกกลางคันของ Quantizer จะตัดทอนสแต็ก RVQ แบบสุ่มระหว่างการฝึก โดยบังคับให้ Codebook รุ่นเก่าๆ ส่งข้อมูลที่สำคัญที่สุด ดังนั้นตัวแปลงสัญญาณจึงลดระดับลงอย่างสวยงามในอัตราที่ต่ำกว่า

การเรียนรู้ตัวแปลงสัญญาณประสาท SoundStream

SoundStream คือตัวแปลงสัญญาณเสียงแบบนิวรอลแบบครบวงจรของ Google ที่บีบอัดคำพูดและเพลงให้มีบิตเรตต่ำมากโดยยังคงคุณภาพไว้ เป็นเรื่องสำคัญเนื่องจากสามารถเอาชนะตัวแปลงสัญญาณแบบดั้งเดิมอย่าง Opus ได้ที่บิตเรตเดียวกัน และขับเคลื่อนโมเดลเสียงสมัยใหม่ SoundStream Neural Codec อยู่ในเวิร์กโฟลว์เสียง-AI ที่แปลงคำพูด เพลง และเสียงเพื่อการสื่อสาร การเข้าถึง และการผลิตสื่อ หากต้องการสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า SoundStream Neural Codec เป็นโมเดลการทำงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ SoundStream Neural Codec จะถือว่าคุณภาพ เวลาแฝง และความยินยอมเป็นส่วนสำคัญของกลยุทธ์การปรับใช้ โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในขณะเดียวกัน การใช้ Voice ในทางที่ผิดและการแอบอ้างบุคคลอื่นก็มีความเสี่ยงเพิ่มขึ้นเมื่อไม่ได้รับความยินยอม แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของตัวแปลงสัญญาณประสาท SoundStream

SoundStream สร้างเทมเพลตที่ตัวแปลงสัญญาณในภายหลัง เช่น EnCodec และ DAC ได้รับการปรับปรุง และโทเค็นที่แยกจากกันของมันก็กลายเป็นต้นแบบสำหรับระบบกำเนิดเช่น AudioLM และ MusicLM คาดหวังว่าผู้สืบทอดจะผลักดันไปสู่บิตเรตที่ต่ำลง โทเค็นที่มีโครงสร้างเชิงความหมายซึ่งเพิ่มเป็นสองเท่าของอินพุตไปยังเครื่องกำเนิดเสียงในรูปแบบภาษา และการปรับใช้บนอุปกรณ์ที่เข้มงวดมากขึ้นสำหรับการโทรสด เครื่องช่วยฟัง และการสตรีมที่มีแบนด์วิดท์และเวลาแฝงถูกจำกัดอย่างเข้มงวด

การใช้งานจริงในโลกแห่งความเป็นจริง

บีบอัดการโทรด้วยเสียงเป็น ~3 kbps ในขณะที่ให้เสียงที่ชัดเจนกว่าตัวแปลงสัญญาณแบบเดิมที่บิตเรตที่สูงกว่า

การสร้างโทเค็นเสียงแยกที่ป้อนโมเดลกำเนิด AudioLM และ MusicLM ของ Google

การสตรีมเสียงแบนด์วิธต่ำแบบเรียลไทม์บนอุปกรณ์มือถือพร้อมการเข้ารหัสและถอดรหัสบน CPU

การจัดเก็บหรือส่งสัญญาณเพลงและเสียงรอบข้างอย่างมีประสิทธิภาพในรูปแบบเดียวที่รองรับเนื้อหาทุกประเภท

รูปแบบการดำเนินงาน

SoundStream Neural Codec ในทางปฏิบัติ

บีบอัดการโทรด้วยเสียงเป็น ~3 kbps ในขณะที่ให้เสียงที่ชัดเจนกว่าตัวแปลงสัญญาณแบบเดิมที่บิตเรตที่สูงกว่า

การบีบอัดการโทรด้วยเสียงเป็น ~3 kbps ในขณะที่ให้เสียงชัดเจนกว่าตัวแปลงสัญญาณแบบเดิมที่บิตเรตที่สูงกว่า ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

SoundStream Neural Codec ในทางปฏิบัติ

การสร้างโทเค็นเสียงแยกที่ป้อนโมเดลการสร้าง AudioLM และ MusicLM ของ Google

การสร้างโทเค็นเสียงแบบแยกที่ป้อนโมเดลการสร้าง AudioLM และ MusicLM ของ Google ทีมงานมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

SoundStream Neural Codec ในทางปฏิบัติ

การสตรีมเสียงแบนด์วิธต่ำแบบเรียลไทม์บนอุปกรณ์มือถือพร้อมการเข้ารหัสและถอดรหัสบน CPU

การสตรีมเสียงแบนด์วิธต่ำแบบเรียลไทม์บนอุปกรณ์เคลื่อนที่ที่มีการเข้ารหัสและถอดรหัสบน CPU ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

SoundStream Neural Codec ในทางปฏิบัติ

การจัดเก็บหรือส่งสัญญาณเพลงและเสียงรอบข้างอย่างมีประสิทธิภาพในรูปแบบเดียวที่รองรับเนื้อหาทุกประเภท

การจัดเก็บหรือส่งเพลงและเสียงรอบข้างอย่างมีประสิทธิภาพในรูปแบบเดียวที่จัดการเนื้อหาทุกประเภท ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การใช้เสียงในทางที่ผิดและการแอบอ้างบุคคลอื่นมีความเสี่ยงเพิ่มขึ้นเมื่อขาดความยินยอม

!

ความแม่นยำอาจลดลงตามสำเนียง ภาษาถิ่น หรือสภาพแวดล้อมที่มีเสียงดัง

!

เสียงสังเคราะห์อาจถูกเข้าใจผิดว่าเป็นเสียงพูดที่แท้จริงโดยไม่มีการกำกับที่ชัดเจน

แผนงานการดำเนินงาน

1

ได้รับความยินยอมอย่างชัดแจ้งสำหรับการจับเสียง การโคลน และการใช้ซ้ำ

ได้รับความยินยอมอย่างชัดแจ้งสำหรับการจับเสียง การโคลน และการใช้ซ้ำ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบคุณภาพกับลำโพงและสภาพพื้นหลังที่หลากหลาย

ทดสอบคุณภาพกับลำโพงและสภาพพื้นหลังที่หลากหลาย ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

กำหนดเวลาที่มนุษย์จะต้องตรวจสอบหรืออนุมัติผลลัพธ์

กำหนดเวลาที่มนุษย์จะต้องตรวจสอบหรืออนุมัติผลลัพธ์ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดป้ายกำกับเสียงสังเคราะห์และเก็บบันทึกที่มาเพื่อความรับผิดชอบ

ติดป้ายกำกับเสียงสังเคราะห์และเก็บบันทึกที่มาเพื่อความรับผิดชอบ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป