คู่มือเสียง AI

Wav2Letter ASR แบบหมุนวน

Wav2Letter เป็นระบบรู้จำเสียงตั้งแต่ต้นทางถึงปลายทางจาก Facebook AI ที่ใช้เฉพาะโครงข่ายประสาทเทียมแบบหมุนวนเท่านั้น โดยไม่มีการทำซ้ำ

ภาพรวม

Wav2Letter เป็นระบบรู้จำเสียงตั้งแต่ต้นทางถึงปลายทางจาก Facebook AI ที่ใช้เฉพาะโครงข่ายประสาทเทียมแบบหมุนวนเท่านั้น โดยไม่มีการทำซ้ำ ถือเป็นทางเลือกที่รวดเร็วและเรียบง่ายที่พิสูจน์ว่า CNN เพียงอย่างเดียวสามารถถอดเสียงคำพูดได้อย่างแข่งขันได้

Wav2Letter Convolutional ASR ตั้งอยู่ในเวิร์กโฟลว์เสียง-AI ที่แปลงคำพูด เพลง และเสียงเพื่อการสื่อสาร การเข้าถึง และการผลิตสื่อ

เจาะลึก

เปิดตัวโดย Facebook AI Research ในปี 2559 Wav2Letter หลุดพ้นจากแนวทางที่เกิดซ้ำและอิง HMM ที่โดดเด่นโดยอาศัยโครงข่ายประสาทเทียมแบบ Convolutional ทั้งหมดเพื่อแมปเสียงโดยตรงกับอักขระ (ตัวอักษร) จึงเป็นที่มาของชื่อ เดิมทีได้รับการฝึกฝนด้วยการสูญเสีย AutoSegCriterion (ASG) แบบกำหนดเอง ซึ่งเป็นทางเลือกที่ง่ายกว่าเมื่อเทียบกับการสูญเสีย CTC ทั่วไปที่ทำให้สัญลักษณ์ว่างและการเปลี่ยนตัวอักษรแบบจำลองโดยตรง เขียนด้วยภาษา C++ โดยใช้แบ็กเอนด์ของ Lights/ArrayFire ได้รับการออกแบบทางวิศวกรรมให้มีความเร็วทั้ง CPU และ GPU เวอร์ชันที่ใหม่กว่า Wav2Letter++ และตัวแปรแบบสลับเต็มรูปแบบ ปรับขนาดเป็นชุดข้อมูลขนาดใหญ่และมีอัตราข้อผิดพลาดของคำที่แข่งขันได้บน Librispeech การออกแบบแบบ Convolution-Only ทำให้สามารถใช้งานแบบขนานได้สูงและเป็นมิตรกับการอนุมานเมื่อเปรียบเทียบกับตัวถอดรหัส RNN แบบเรียงลำดับ

ข้อมูลเชิงลึกทางเทคนิค

Wav2Letter ซ้อนการโน้มน้าวชั่วคราวแบบ 1D บนคุณสมบัติด้านเสียง โดยแต่ละเลเยอร์จะขยายขอบเขตการรับข้อมูลให้กว้างขึ้น ดังนั้นสแต็คระดับลึกจะบันทึกบริบทที่ยาวโดยไม่เกิดซ้ำ เนื่องจากการโน้มน้าวจะประมวลผลขั้นตอนเวลาทั้งหมดแบบขนาน การฝึกอบรมและการอนุมานจึงรวดเร็ว การสูญเสีย ASG ดั้งเดิมนั้นคล้ายคลึงกับ CTC แต่จะลบโทเค็นเปล่าออก และเพิ่มคะแนนการเปลี่ยนจากตัวอักษรเป็นตัวอักษรอย่างชัดเจน ทำให้เกิดเกณฑ์ลำดับที่แตกต่างกันโดยสิ้นเชิง ซึ่งจัดแนวเสียงที่มีความยาวผันแปรได้กับเอาต์พุตอักขระโดยไม่มีป้ายกำกับต่อเฟรม

การเรียนรู้ Wav2Letter Convolutional ASR

Wav2Letter เป็นระบบรู้จำเสียงตั้งแต่ต้นทางถึงปลายทางจาก Facebook AI ที่ใช้เฉพาะโครงข่ายประสาทเทียมแบบหมุนวนเท่านั้น โดยไม่มีการทำซ้ำ ถือเป็นทางเลือกที่รวดเร็วและเรียบง่ายที่พิสูจน์ว่า CNN เพียงอย่างเดียวสามารถถอดเสียงคำพูดได้อย่างแข่งขันได้ Wav2Letter Convolutional ASR ตั้งอยู่ในเวิร์กโฟลว์เสียง-AI ที่แปลงคำพูด เพลง และเสียงเพื่อการสื่อสาร การเข้าถึง และการผลิตสื่อ หากต้องการสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Wav2Letter Convolutional ASR เป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Wav2Letter Convolutional ASR จะถือว่าคุณภาพ เวลาแฝง และความยินยอมเป็นส่วนสำคัญของกลยุทธ์การปรับใช้ โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในขณะเดียวกัน การใช้ Voice ในทางที่ผิดและการแอบอ้างบุคคลอื่นก็มีความเสี่ยงเพิ่มขึ้นเมื่อไม่ได้รับความยินยอม แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของ Wav2Letter Convolutional ASR

สายเลือดโดยตรงของ Wav2Letter ยังคงอยู่ใน Lights ซึ่งเป็นไลบรารีการเรียนรู้ของเครื่อง C++ ของ Facebook และแจ้งให้โมเดลที่ดูแลตนเองของ wav2vec ซึ่งขณะนี้มีอำนาจเหนือกว่า บทเรียนที่กว้างขึ้นคือสถาปัตยกรรมการบิดและขนานสามารถจับคู่การเกิดซ้ำได้ ซึ่งป้อนเข้าสู่ ASR ที่ใช้หม้อแปลงโดยตรง คาดว่าระบบในอนาคตจะยังคงยืมความสำคัญของ Wav2Letter ในด้านไปป์ไลน์แบบ end-to-end ที่มีประสิทธิภาพ แบบคู่ขนาน และสร้างความแตกต่างได้อย่างเต็มที่ ขณะเดียวกันก็ใช้การฝึกอบรมล่วงหน้าแบบมีผู้ดูแลด้วยตนเองสำหรับภาษาที่มีทรัพยากรต่ำ

การใช้งานจริงในโลกแห่งความเป็นจริง

การถอดเสียงแบบเรียลไทม์ที่การอนุมานแบบขนานที่มีเวลาแฝงต่ำมีค่ามากกว่าความแม่นยำเพียงไม่กี่จุด

การรู้จำคำพูดบนอุปกรณ์หรือ CPU ที่ไม่สามารถจ่ายตัวถอดรหัสที่เกิดซ้ำจำนวนมากได้

พื้นฐานการวิจัยเปรียบเทียบ ASR แบบบิดกับ RNN และระบบหม้อแปลงบน Librispeech

ทำหน้าที่เป็นรากฐานทางวิศวกรรมสำหรับไลบรารี่ไฟฉายของ Facebook และรุ่น wav2vec ในภายหลัง

รูปแบบการดำเนินงาน

Wav2Letter Convolutional ASR ในทางปฏิบัติ

การถอดเสียงแบบเรียลไทม์ที่การอนุมานแบบขนานที่มีเวลาแฝงต่ำมีค่ามากกว่าความแม่นยำเพียงไม่กี่จุด

การถอดเสียงแบบเรียลไทม์ที่การอนุมานแบบขนานที่มีเวลาแฝงต่ำมีค่ามากกว่าความแม่นยำสองสามจุด ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Wav2Letter Convolutional ASR ในทางปฏิบัติ

การรู้จำคำพูดบนอุปกรณ์หรือ CPU ที่ไม่สามารถจ่ายตัวถอดรหัสที่เกิดซ้ำจำนวนมากได้

การรู้จำคำพูดบนอุปกรณ์หรือ CPU ที่ไม่สามารถจ่ายให้กับตัวถอดรหัสที่เกิดซ้ำจำนวนมากได้ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Wav2Letter Convolutional ASR ในทางปฏิบัติ

พื้นฐานการวิจัยเปรียบเทียบ ASR แบบบิดกับ RNN และระบบหม้อแปลงบน Librispeech

เส้นฐานการวิจัยที่เปรียบเทียบ ASR แบบบิดกับ RNN และระบบหม้อแปลงบนทีม Librispeech มักจะได้รับผลลัพธ์ที่ดีกว่า เมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Wav2Letter Convolutional ASR ในทางปฏิบัติ

ทำหน้าที่เป็นรากฐานทางวิศวกรรมสำหรับไลบรารี่ไฟฉายของ Facebook และรุ่น wav2vec ในภายหลัง

ทำหน้าที่เป็นรากฐานทางวิศวกรรมสำหรับไลบรารี่ไฟฉายของ Facebook และโมเดล wav2vec ในภายหลัง ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การใช้เสียงในทางที่ผิดและการแอบอ้างบุคคลอื่นมีความเสี่ยงเพิ่มขึ้นเมื่อขาดความยินยอม

!

ความแม่นยำอาจลดลงตามสำเนียง ภาษาถิ่น หรือสภาพแวดล้อมที่มีเสียงดัง

!

เสียงสังเคราะห์อาจถูกเข้าใจผิดว่าเป็นเสียงพูดที่แท้จริงโดยไม่มีการกำกับที่ชัดเจน

แผนงานการดำเนินงาน

1

ได้รับความยินยอมอย่างชัดแจ้งสำหรับการจับเสียง การโคลน และการใช้ซ้ำ

ได้รับความยินยอมอย่างชัดแจ้งสำหรับการจับเสียง การโคลน และการใช้ซ้ำ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบคุณภาพกับลำโพงและสภาพพื้นหลังที่หลากหลาย

ทดสอบคุณภาพกับลำโพงและสภาพพื้นหลังที่หลากหลาย ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

กำหนดเวลาที่มนุษย์จะต้องตรวจสอบหรืออนุมัติผลลัพธ์

กำหนดเวลาที่มนุษย์จะต้องตรวจสอบหรืออนุมัติผลลัพธ์ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดป้ายกำกับเสียงสังเคราะห์และเก็บบันทึกที่มาเพื่อความรับผิดชอบ

ติดป้ายกำกับเสียงสังเคราะห์และเก็บบันทึกที่มาเพื่อความรับผิดชอบ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป