คู่มือ ASR ของ Jasper และ QuartzNet

ภาพรวม

Jasper และ QuartzNet เป็นโมเดลการรู้จำเสียงพูดแบบ end-to-end ของ NVIDIA โดยที่ QuartzNet เป็นการออกแบบ Jasper ใหม่ที่มีขนาดเล็กลงอย่างมากและมีประสิทธิภาพ สิ่งสำคัญคือการแสดงวิธีรับความแม่นยำระดับสูงด้วยพารามิเตอร์ที่น้อยกว่ามาก ซึ่งเหมาะสำหรับการปรับใช้

Jasper และ QuartzNet ASR ตั้งอยู่ในเวิร์กโฟลว์เสียง-AI ที่เปลี่ยนคำพูด เพลง และเสียงเพื่อการสื่อสาร การเข้าถึง และการผลิตสื่อ

เจาะลึก

Jasper (Just Another Speech Recognizer) เปิดตัวโดย NVIDIA ในปี 2019 เป็นเครือข่าย Convolutional 1D แบบลึก สูงสุด 54 เลเยอร์ ที่แมปฟีเจอร์เมลสเปกโตรแกรมกับอักขระที่ใช้การสูญเสีย CTC โดยทำให้เกิดการเชื่อมต่อที่ตกค้างหนาแน่น ดังนั้นการไล่ระดับสีจึงไหลผ่านชั้นที่ลึกมากได้อย่างหมดจด QuartzNet ซึ่งเปิดตัวในปีเดียวกัน ยังคงรักษาโครงสร้างบล็อกของ Jasper เอาไว้ แต่แทนที่การโน้มน้าวใจแบบมาตรฐานด้วยการโน้มน้าวใจแบบแยกช่องเวลาได้ โดยแยกแต่ละตัวกรองออกเป็นการโน้มน้าวใจชั่วคราวเชิงลึกและขั้นตอนการผสมช่องสัญญาณตามจุด การแยกตัวประกอบนี้ได้ลดพารามิเตอร์จาก Jasper ประมาณ 333 ล้านตัวลงเหลือประมาณ 19 ล้านตัวในขณะที่จับคู่ความแม่นยำบน Librispeech ทั้งสองมาพร้อมกับชุดเครื่องมือ NeMo ของ NVIDIA และได้รับการปรับแต่งเพื่อการฝึกฝน GPU ที่รวดเร็วและการอนุมานแบบเรียลไทม์ ทำให้เป็นองค์ประกอบหลักยอดนิยมสำหรับ ASR ที่ใช้งานจริง

ข้อมูลเชิงลึกทางเทคนิค

ประสิทธิภาพของ QuartzNet มาจากการหมุนวนแบบแบ่งช่องเวลาได้ ซึ่งเป็นแนวคิดเดียวกันกับที่อยู่เบื้องหลัง MobileNet การบิดแบบ 1D ปกติจะผสมเวลาและช่องสัญญาณเข้าด้วยกัน โดยมีต้นทุน K คูณ C-in คูณ C-out น้ำหนัก การแยกมันออกเป็นการบิดแบบเชิงลึกเมื่อเวลาผ่านไป บวกการบิดแบบพอยต์ไวด์บนช่องสัญญาณ 1x1 จะลดพารามิเตอร์เป็น K คูณ C บวก C-in คูณ C-out ซ้อนกันในบล็อกที่เหลือและได้รับการฝึกอบรมกับ CTC ซึ่งให้ความแม่นยำใกล้เคียง Jasper โดยมีขนาดเพียงเศษเสี้ยวของขนาดโมเดลและการคำนวณ

การเรียนรู้ Jasper และ QuartzNet ASR

หากต้องการสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Jasper และ QuartzNet ASR เป็นโมเดลการทำงาน ไม่ใช่คุณลักษณะเดียว กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Jasper และ QuartzNet ASR จะถือว่าคุณภาพ เวลาแฝง และความยินยอมเป็นส่วนสำคัญของกลยุทธ์การปรับใช้ โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในขณะเดียวกัน การใช้ Voice ในทางที่ผิดและการแอบอ้างบุคคลอื่นก็มีความเสี่ยงเพิ่มขึ้นเมื่อไม่ได้รับความยินยอม แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของ Jasper และ QuartzNet ASR

สายเลือดที่แยกออกจากกันของ QuartzNet นำไปสู่ Citrinet ของ NVIDIA โดยตรงและรุ่น Conformer ที่ใช้กันอย่างแพร่หลาย ซึ่งเพิ่มความสนใจในตนเองในการจับภาพบริบทระดับโลกควบคู่ไปกับการโน้มน้าวใจในท้องถิ่น คาดว่าจะมีการเคลื่อนไหวอย่างต่อเนื่องไปสู่สถาปัตยกรรมไฮบริด Convolution-Plus-Attention และเครื่องถอดรหัสทรานสดิวเซอร์ (RNN-T) สำหรับการสตรีม บทเรียนหลัก การโน้มน้าวใจด้วยพารามิเตอร์ที่มีประสิทธิภาพสำหรับการปรับใช้ Edge และแบบเรียลไทม์ ยังคงเป็นศูนย์กลางเมื่อ ASR ส่งต่อไปยังโทรศัพท์ รถยนต์ และอุปกรณ์ฝังตัว

การใช้งานจริงในโลกแห่งความเป็นจริง

การถอดเสียงแบบเรียลไทม์และระบบช่วยเสียงที่ใช้งานบน NVIDIA GPU ผ่านชุดเครื่องมือ NeMo

Edge และ ASR แบบฝังซึ่งพื้นที่ขนาดเล็กของ QuartzNet เหมาะกับอุปกรณ์ที่จำกัดหน่วยความจำ

การปรับแต่งจุดตรวจสอบ QuartzNet ที่ได้รับการฝึกล่วงหน้าอย่างละเอียดสำหรับคำศัพท์เฉพาะโดเมน เช่น คำศัพท์ทางการแพทย์หรือกฎหมาย

การวิเคราะห์ศูนย์บริการทางโทรศัพท์จะถ่ายทอดเสียงจำนวนมากอย่างรวดเร็วและคุ้มค่า

รูปแบบการดำเนินงาน

Jasper และ QuartzNet ASR ในทางปฏิบัติ

การถอดเสียงแบบเรียลไทม์และระบบช่วยเสียงที่ใช้งานบน NVIDIA GPU ผ่านชุดเครื่องมือ NeMo

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Jasper และ QuartzNet ASR ในทางปฏิบัติ

Edge และ ASR แบบฝังซึ่งพื้นที่ขนาดเล็กของ QuartzNet เหมาะกับอุปกรณ์ที่จำกัดหน่วยความจำ

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Jasper และ QuartzNet ASR ในทางปฏิบัติ

การปรับแต่งจุดตรวจสอบ QuartzNet ที่ได้รับการฝึกล่วงหน้าอย่างละเอียดสำหรับคำศัพท์เฉพาะโดเมน เช่น คำศัพท์ทางการแพทย์หรือกฎหมาย

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Jasper และ QuartzNet ASR ในทางปฏิบัติ

การวิเคราะห์ศูนย์บริการทางโทรศัพท์จะถ่ายทอดเสียงจำนวนมากอย่างรวดเร็วและคุ้มค่า

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การใช้เสียงในทางที่ผิดและการแอบอ้างบุคคลอื่นมีความเสี่ยงเพิ่มขึ้นเมื่อขาดความยินยอม

!

ความแม่นยำอาจลดลงตามสำเนียง ภาษาถิ่น หรือสภาพแวดล้อมที่มีเสียงดัง

!

เสียงสังเคราะห์อาจถูกเข้าใจผิดว่าเป็นเสียงพูดที่แท้จริงโดยไม่มีการกำกับที่ชัดเจน

แผนงานการดำเนินงาน

1

ได้รับความยินยอมอย่างชัดแจ้งสำหรับการจับเสียง การโคลน และการใช้ซ้ำ

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบคุณภาพกับลำโพงและสภาพพื้นหลังที่หลากหลาย

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

กำหนดเวลาที่มนุษย์จะต้องตรวจสอบหรืออนุมัติผลลัพธ์

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดป้ายกำกับเสียงสังเคราะห์และเก็บบันทึกที่มาเพื่อความรับผิดชอบ

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป

เสียงเอไอ

เรียนรู้ว่าระบบคำพูดจดจำและสร้างภาษาได้อย่างไร

อ่านคู่มือ

เอไอ มิวสิค

ทำความเข้าใจเครื่องมือและข้อจำกัดในการสร้างดนตรียุคใหม่

อ่านคู่มือ

แจสเปอร์และ QuartzNet ASR

ภาพรวม

เจาะลึก

ข้อมูลเชิงลึกทางเทคนิค

การเรียนรู้ Jasper และ QuartzNet ASR

ผลกระทบเชิงกลยุทธ์

อนาคตของ Jasper และ QuartzNet ASR

การใช้งานจริงในโลกแห่งความเป็นจริง

รูปแบบการดำเนินงาน

Jasper และ QuartzNet ASR ในทางปฏิบัติ

Jasper และ QuartzNet ASR ในทางปฏิบัติ

Jasper และ QuartzNet ASR ในทางปฏิบัติ

Jasper และ QuartzNet ASR ในทางปฏิบัติ

ความเสี่ยงและรั้ว

แผนงานการดำเนินงาน

สำรวจต่อไป

เสียงเอไอ

เอไอ มิวสิค

Related guides