คู่มือชุดเครื่องมือการรู้จำคำพูด Kaldi

ภาพรวม

Kaldi เป็นชุดเครื่องมือโอเพ่นซอร์สฟรีที่กลายเป็นแพลตฟอร์มการวิจัยที่โดดเด่นสำหรับการสร้างระบบการรู้จำเสียง เป็นเรื่องสำคัญเพราะเป็นเวลาเกือบหนึ่งทศวรรษที่มูลนิธิแห่งนี้เป็นรากฐานสำหรับงาน ASR เชิงวิชาการและอุตสาหกรรม

ชุดเครื่องมือการรู้จำคำพูด Kaldi ตั้งอยู่ในเวิร์กโฟลว์เสียง-AI ที่เปลี่ยนคำพูด เพลง และเสียงเพื่อการสื่อสาร การเข้าถึง และการผลิตสื่อ

เจาะลึก

Kaldi เปิดตัวในปี 2011 และนำโดย Daniel Povey เขียนด้วยภาษา C++ พร้อมด้วยสูตรอาหารที่ติดกาวเข้าด้วยกันด้วยสคริปต์ bash และ Perl มันสร้างขึ้นบนไปป์ไลน์ ASR แบบคลาสสิก: แยกคุณสมบัติทางเสียง (MFCC หรือ filterbanks) สร้างแบบจำลองเสียงฟอนิมด้วย Gaussian Mixture Models หรือในภายหลังคือเครือข่ายประสาทเทียมระดับลึก และรวมโมเดลอะคูสติก พจนานุกรมการออกเสียง และโมเดลภาษาไว้ในกราฟเดียวที่ค้นหาได้ ตัวเลือกทางเทคนิคที่กำหนดคือการใช้ทรานสดิวเซอร์ไฟไนต์สเตตแบบถ่วงน้ำหนัก (WFST) จากไลบรารี OpenFST เพื่อรวบรวมแหล่งความรู้ทั้งหมดเป็นกราฟถอดรหัสเดียว Kaldi จัดส่ง 'สูตรอาหาร' สำหรับชุดข้อมูลมาตรฐาน เช่น Switchboard, Librispeech และ Wall Street Journal เพื่อให้นักวิจัยสามารถทำซ้ำผลลัพธ์ที่ล้ำสมัยได้ มันกลายเป็นการดำเนินการอ้างอิงเทียบกับระบบใหม่ที่ถูกเปรียบเทียบ

ข้อมูลเชิงลึกทางเทคนิค

เคล็ดลับหลักของ Kaldi คือการเขียน WFST สี่รายการเป็นกราฟเดียวที่เรียกว่า HCLG: H แมปสถานะ neural-net หรือ GMM ไปยังโทรศัพท์ที่ขึ้นอยู่กับบริบท C จัดการบริบทการออกเสียง (triphones) L คือพจนานุกรมการออกเสียงที่จับคู่โทรศัพท์กับคำ และ G คือโมเดลภาษา การคูณทรานสดิวเซอร์เหล่านี้และการปรับผลลัพธ์ให้เหมาะสมจะสร้างกราฟเดี่ยวที่ตัวถอดรหัสค้นหาด้วยอัลกอริธึม Viterbi ที่ตัดแต่งด้วยลำแสง ซึ่งเปลี่ยนเฟรมเสียงให้เป็นลำดับคำที่เป็นไปได้มากที่สุดอย่างมีประสิทธิภาพ

การเรียนรู้ชุดเครื่องมือการรู้จำคำพูด Kaldi

หากต้องการสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Kaldi Speech Recognition Toolkit เป็นเพียงโมเดลการทำงาน ไม่ใช่ฟีเจอร์เดียว กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Kaldi Speech Recognition Toolkit จะถือว่าคุณภาพ เวลาแฝง และความยินยอมเป็นส่วนสำคัญของกลยุทธ์การปรับใช้ โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในขณะเดียวกัน การใช้ Voice ในทางที่ผิดและการแอบอ้างบุคคลอื่นก็มีความเสี่ยงเพิ่มขึ้นเมื่อไม่ได้รับความยินยอม แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของชุดเครื่องมือรู้จำเสียง Kaldi

วิธีการ HMM-DNN แบบไฮบริดของ Kaldi ส่วนใหญ่ถูกแทนที่ด้วยโมเดลประสาทจากต้นทางถึงปลายทางที่แมปเสียงกับข้อความโดยตรง โปรเจ็กต์ที่สืบทอดต่อจาก Daniel Povey, k2 (พร้อมระบบนิเวศ Icefall และ Lhotse) นำเสนอแนวคิด WFST ของ Kaldi ใน PyTorch ใหม่ด้วยออโตมาตาสถานะจำกัดที่สามารถสร้างความแตกต่างได้ คาดหวังว่า Kaldi จะยังคงเป็นแหล่งอ้างอิงทางประวัติศาสตร์และเป็นเครื่องมือในการสอน ในขณะที่ผู้สืบทอดแนวความคิดจะผสานการถอดรหัสที่มีโครงสร้างแบบคลาสสิกเข้ากับโมเดลอะคูสติกที่ใช้หม้อแปลงไฟฟ้าสมัยใหม่และแบบควบคุมตนเอง

การใช้งานจริงในโลกแห่งความเป็นจริง

ห้องปฏิบัติการทางวิชาการที่สร้างมาตรฐาน Librispeech และ Switchboard ขึ้นมาใหม่เพื่อตรวจสอบการวิจัยการสร้างแบบจำลองทางเสียงใหม่

การสร้างระบบคำสั่งเสียงแบบกำหนดเองสำหรับภาษาที่มีทรัพยากรต่ำหรือภาษากลุ่มน้อยโดยใช้สูตรอาหาร Kaldi

บังคับจัดแนวเสียงกับการถอดเสียงสำหรับภาษาศาสตร์ การสร้างชุดข้อมูล และการกำหนดเวลาคำบรรยาย

ขับเคลื่อนแบ็กเอนด์การค้นหาด้วยเสียงและการเขียนตามคำบอกในยุคแรกๆ ในอุตสาหกรรมก่อนที่โมเดลแบบ end-to-end จะครบกำหนด

รูปแบบการดำเนินงาน

ชุดเครื่องมือการรู้จำเสียง Kaldi ในทางปฏิบัติ

ห้องปฏิบัติการทางวิชาการที่สร้างมาตรฐาน Librispeech และ Switchboard ขึ้นมาใหม่เพื่อตรวจสอบการวิจัยการสร้างแบบจำลองทางเสียงใหม่

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ชุดเครื่องมือการรู้จำเสียง Kaldi ในทางปฏิบัติ

การสร้างระบบคำสั่งเสียงแบบกำหนดเองสำหรับภาษาที่มีทรัพยากรต่ำหรือภาษากลุ่มน้อยโดยใช้สูตรอาหาร Kaldi

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ชุดเครื่องมือการรู้จำเสียง Kaldi ในทางปฏิบัติ

บังคับจัดแนวเสียงกับการถอดเสียงสำหรับภาษาศาสตร์ การสร้างชุดข้อมูล และการกำหนดเวลาคำบรรยาย

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ชุดเครื่องมือการรู้จำเสียง Kaldi ในทางปฏิบัติ

ขับเคลื่อนแบ็กเอนด์การค้นหาด้วยเสียงและการเขียนตามคำบอกในยุคแรกๆ ในอุตสาหกรรมก่อนที่โมเดลแบบ end-to-end จะครบกำหนด

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การใช้เสียงในทางที่ผิดและการแอบอ้างบุคคลอื่นมีความเสี่ยงเพิ่มขึ้นเมื่อขาดความยินยอม

!

ความแม่นยำอาจลดลงตามสำเนียง ภาษาถิ่น หรือสภาพแวดล้อมที่มีเสียงดัง

!

เสียงสังเคราะห์อาจถูกเข้าใจผิดว่าเป็นเสียงพูดที่แท้จริงโดยไม่มีการกำกับที่ชัดเจน

แผนงานการดำเนินงาน

1

ได้รับความยินยอมอย่างชัดแจ้งสำหรับการจับเสียง การโคลน และการใช้ซ้ำ

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบคุณภาพกับลำโพงและสภาพพื้นหลังที่หลากหลาย

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

กำหนดเวลาที่มนุษย์จะต้องตรวจสอบหรืออนุมัติผลลัพธ์

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดป้ายกำกับเสียงสังเคราะห์และเก็บบันทึกที่มาเพื่อความรับผิดชอบ

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป

เสียงเอไอ

เรียนรู้ว่าระบบคำพูดจดจำและสร้างภาษาได้อย่างไร

อ่านคู่มือ

เอไอ มิวสิค

ทำความเข้าใจเครื่องมือและข้อจำกัดในการสร้างดนตรียุคใหม่

อ่านคู่มือ

ชุดเครื่องมือรู้จำเสียง Kaldi

ภาพรวม

เจาะลึก

ข้อมูลเชิงลึกทางเทคนิค

การเรียนรู้ชุดเครื่องมือการรู้จำคำพูด Kaldi

ผลกระทบเชิงกลยุทธ์

อนาคตของชุดเครื่องมือรู้จำเสียง Kaldi

การใช้งานจริงในโลกแห่งความเป็นจริง

รูปแบบการดำเนินงาน

ชุดเครื่องมือการรู้จำเสียง Kaldi ในทางปฏิบัติ

ชุดเครื่องมือการรู้จำเสียง Kaldi ในทางปฏิบัติ

ชุดเครื่องมือการรู้จำเสียง Kaldi ในทางปฏิบัติ

ชุดเครื่องมือการรู้จำเสียง Kaldi ในทางปฏิบัติ

ความเสี่ยงและรั้ว

แผนงานการดำเนินงาน

สำรวจต่อไป

เสียงเอไอ

เอไอ มิวสิค

Related guides