คู่มือเสียง AI

การประมาณค่าสนามเครป

CREPE เป็นโมเดลการเรียนรู้เชิงลึกที่ประมาณความถี่พื้นฐาน (ระดับเสียง) ของสัญญาณเสียงโมโนโฟนิกโดยตรงจากรูปคลื่นดิบ

ภาพรวม

CREPE เป็นโมเดลการเรียนรู้เชิงลึกที่ประมาณความถี่พื้นฐาน (ระดับเสียง) ของสัญญาณเสียงโมโนโฟนิกโดยตรงจากรูปคลื่นดิบ โดยกำหนดมาตรฐานความแม่นยำใหม่สำหรับการติดตามระดับเสียง โดยเฉพาะอย่างยิ่งในการบันทึกที่มีเสียงดังหรือทำได้ยาก

CREPE Pitch Estimation อยู่ในเวิร์กโฟลว์เสียง-AI ที่เปลี่ยนคำพูด เพลง และเสียงเพื่อการสื่อสาร การเข้าถึง และการผลิตสื่อ

เจาะลึก

CREPE (Convolutional Representation for Pitch Estimation) เปิดตัวในปี 2018 โดย Kim, Salamon, Li และ Bello ทำนายระดับเสียงของโน้ตตัวเดียว (โมโนโฟนิก) เช่น เสียงร้องหรือเครื่องดนตรีเดี่ยว ต่างจากอัลกอริธึมคลาสสิกอย่าง YIN หรือ pYIN ที่ต้องอาศัยความสัมพันธ์อัตโนมัติของสัญญาณ CREPE นั้นเป็นโครงข่ายประสาทเทียมเชิงลึกที่ได้รับการฝึกโดยตรงบนเฟรมเสียงโดเมนเวลา มันวางกรอบการประมาณระดับเสียงเป็นปัญหาการจำแนกประเภท โดยส่งสัญญาณการกระจายความน่าจะเป็นมากกว่า 360 พิทช์บิน ซึ่งครอบคลุมประมาณหกอ็อกเทฟ โดยแต่ละอันห่างกัน 20 เซ็นต์ ถังขยะที่มีการเปิดใช้งานสูงสุด ซึ่งปรับแต่งด้วยค่าเฉลี่ยถ่วงน้ำหนักในพื้นที่ จะให้คะแนนความถี่โดยประมาณบวกกับคะแนนความเชื่อมั่น CREPE ได้รับการพิสูจน์แล้วว่าแข็งแกร่งกว่าวิธีการประมวลผลสัญญาณอย่างเห็นได้ชัด โดยเฉพาะอย่างยิ่งภายใต้สัญญาณรบกวน และปัจจุบันเป็นองค์ประกอบมาตรฐานในไปป์ไลน์การวิเคราะห์เพลงและคำพูดจำนวนมาก

ข้อมูลเชิงลึกทางเทคนิค

CREPE นำเฟรมเสียงตัวอย่าง 1,024 ตัวอย่างและส่งผ่านเลเยอร์ Convolutional ที่ซ้อนกันหกเลเยอร์ ซึ่งสิ้นสุดในเลเยอร์เอาต์พุต 360 ยูนิตพร้อมการเปิดใช้งาน sigmoid แต่ละยูนิตสอดคล้องกับพิตช์บินที่เว้นระยะห่างกัน 20 เซ็นต์ทั่วทั้งอ็อกเทฟประมาณหกอ็อกเทฟ เครือข่ายได้รับการฝึกฝนด้วยเอนโทรปีข้ามแบบไบนารีกับเป้าหมายที่เบลอแบบเกาส์เซียนซึ่งมีศูนย์กลางอยู่ที่ระดับเสียงที่แท้จริง ในการอนุมาน ความถี่ที่คาดการณ์ไว้คือค่าเฉลี่ยถ่วงน้ำหนักเฉพาะจุดของการเปิดใช้งานรอบพีคบิน และความสูงพีคทำหน้าที่เป็นค่าความเชื่อมั่น

การเรียนรู้การประมาณค่า Pitch ของ CREPE

CREPE เป็นโมเดลการเรียนรู้เชิงลึกที่ประมาณความถี่พื้นฐาน (ระดับเสียง) ของสัญญาณเสียงโมโนโฟนิกโดยตรงจากรูปคลื่นดิบ โดยกำหนดมาตรฐานความแม่นยำใหม่สำหรับการติดตามระดับเสียง โดยเฉพาะอย่างยิ่งในการบันทึกที่มีเสียงดังหรือทำได้ยาก CREPE Pitch Estimation อยู่ในเวิร์กโฟลว์เสียง-AI ที่เปลี่ยนคำพูด เพลง และเสียงเพื่อการสื่อสาร การเข้าถึง และการผลิตสื่อ เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า CREPE Pitch Estimation เป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ CREPE Pitch Estimation จะถือว่าคุณภาพ เวลาแฝง และความยินยอมเป็นส่วนสำคัญของกลยุทธ์การปรับใช้ โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในขณะเดียวกัน การใช้ Voice ในทางที่ผิดและการแอบอ้างบุคคลอื่นก็มีความเสี่ยงเพิ่มขึ้นเมื่อไม่ได้รับความยินยอม แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการประมาณค่า Pitch ของ CREPE

การประมาณระดับเสียงกำลังเคลื่อนไปสู่โมเดลร่วมที่จัดการกับโพลีโฟนี (บันทึกพร้อมกันหลายรายการ) เวลาแฝงที่ลดลงสำหรับการปรับแต่งแบบเรียลไทม์และฮาร์โมนีอัตโนมัติ และเครือข่ายกลั่นขนาดเล็กที่ทำงานบนโทรศัพท์และอุปกรณ์ฝังตัว ผลลัพธ์ความมั่นใจของ CREPE จะถูกป้อนเข้าสู่งานปลายน้ำมากขึ้น เช่น การถอดเสียงอัตโนมัติ การแก้ไขเสียงร้อง และการวิเคราะห์ประสิทธิภาพการแสดงออก แนวทางการดูแลตนเองและการทำงานหลายอย่างพร้อมกันที่เรียนรู้ระดับเสียงควบคู่ไปกับเสียงต่ำและเสียงที่เปล่งออกมีแนวโน้มที่จะขยายความแม่นยำแบบ CREPE ให้มากกว่าเสียงโมโนโฟนิคที่สะอาด

การใช้งานจริงในโลกแห่งความเป็นจริง

ติดตามระดับเสียงของนักร้องเพื่อรับฟังความคิดเห็นแบบเรียลไทม์ในแอปฝึกร้อง

ขับเคลื่อนเครื่องมือปรับแต่งอัตโนมัติและแก้ไขระดับเสียงด้วยเส้นโค้งความถี่พื้นฐานที่แม่นยำ

การถอดเสียงท่วงทำนองเครื่องดนตรีเดี่ยวเป็น MIDI หรือแผ่นโน้ตเพลง

การวิเคราะห์น้ำเสียงและเสียงสั่นในการศึกษาด้านดนตรีและการวิจัยการแสดง

รูปแบบการดำเนินงาน

การประมาณค่า Pitch CREPE ในทางปฏิบัติ

ติดตามระดับเสียงของนักร้องเพื่อรับฟังความคิดเห็นแบบเรียลไทม์ในแอปฝึกร้อง

การติดตามการเสนอขายของนักร้องเพื่อรับฟังความคิดเห็นในการปรับแต่งแบบเรียลไทม์ในแอปฝึกร้อง ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การประมาณค่า Pitch CREPE ในทางปฏิบัติ

ขับเคลื่อนเครื่องมือปรับแต่งอัตโนมัติและแก้ไขระดับเสียงด้วยเส้นโค้งความถี่พื้นฐานที่แม่นยำ

การขับเคลื่อนเครื่องมือปรับแต่งอัตโนมัติและการแก้ไขระดับเสียงด้วยเส้นโค้งความถี่พื้นฐานที่แม่นยำ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การประมาณค่า Pitch CREPE ในทางปฏิบัติ

การถอดเสียงท่วงทำนองเครื่องดนตรีเดี่ยวเป็น MIDI หรือแผ่นโน้ตเพลง

การถอดเสียงท่วงทำนองเครื่องดนตรีเดี่ยวเป็น MIDI หรือโน้ตเพลง ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การประมาณค่า Pitch CREPE ในทางปฏิบัติ

การวิเคราะห์น้ำเสียงและเสียงสั่นในการศึกษาด้านดนตรีและการวิจัยการแสดง

การวิเคราะห์น้ำเสียงและเสียงสั่นในการศึกษาด้านดนตรีและการวิจัยประสิทธิภาพ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การใช้เสียงในทางที่ผิดและการแอบอ้างบุคคลอื่นมีความเสี่ยงเพิ่มขึ้นเมื่อขาดความยินยอม

!

ความแม่นยำอาจลดลงตามสำเนียง ภาษาถิ่น หรือสภาพแวดล้อมที่มีเสียงดัง

!

เสียงสังเคราะห์อาจถูกเข้าใจผิดว่าเป็นเสียงพูดที่แท้จริงโดยไม่มีการกำกับที่ชัดเจน

แผนงานการดำเนินงาน

1

ได้รับความยินยอมอย่างชัดแจ้งสำหรับการจับเสียง การโคลน และการใช้ซ้ำ

ได้รับความยินยอมอย่างชัดแจ้งสำหรับการจับเสียง การโคลน และการใช้ซ้ำ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบคุณภาพกับลำโพงและสภาพพื้นหลังที่หลากหลาย

ทดสอบคุณภาพกับลำโพงและสภาพพื้นหลังที่หลากหลาย ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

กำหนดเวลาที่มนุษย์จะต้องตรวจสอบหรืออนุมัติผลลัพธ์

กำหนดเวลาที่มนุษย์จะต้องตรวจสอบหรืออนุมัติผลลัพธ์ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดป้ายกำกับเสียงสังเคราะห์และเก็บบันทึกที่มาเพื่อความรับผิดชอบ

ติดป้ายกำกับเสียงสังเคราะห์และเก็บบันทึกที่มาเพื่อความรับผิดชอบ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป