คู่มือเสียง AI

การถอดเสียงเพลงอัตโนมัติ

การถอดเสียงเพลงอัตโนมัติ (AMT) จะแปลงเสียงบันทึกดิบของเพลงให้เป็นสัญลักษณ์เชิงสัญลักษณ์ เช่น โน้ตเพลง, MIDI หรือเปียโนโรล

ภาพรวม

การถอดเสียงเพลงอัตโนมัติ (AMT) จะแปลงเสียงบันทึกดิบของเพลงให้เป็นสัญลักษณ์เชิงสัญลักษณ์ เช่น โน้ตเพลง, MIDI หรือเปียโนโรล มันจัดการหนึ่งในปัญหาที่ยากที่สุดในเสียง AI: แก้โน้ตที่ทับซ้อนกันหลายอันที่เล่นในคราวเดียว

การถอดเสียงเพลงอัตโนมัติอยู่ในเวิร์กโฟลว์เสียง-AI ที่แปลงคำพูด เพลง และเสียงเพื่อการสื่อสาร การเข้าถึง และการผลิตสื่อ

เจาะลึก

ระบบ AMT จะฟังรูปคลื่นเสียงและเอาต์พุตซึ่งมีการเล่นโน้ต เมื่อเริ่มเล่น ระยะเวลาที่เล่น และบางครั้งเครื่องดนตรีใดที่เล่น ความท้าทายหลักคือโพลีโฟนี: เมื่อโน้ตหลายตัวส่งเสียงพร้อมกัน ฮาร์โมนิคของพวกมันจะทับซ้อนกันและเบลอด้วยกันในสเปกตรัมความถี่ ดังนั้น C และ G ตัวเดียวจึงแยกได้ยากจากโน้ตตัวเดียวที่ดังกว่า ระบบสมัยใหม่แปลงเสียงให้เป็นการแสดงความถี่ตามเวลา เช่น เมล-สเปกโตรแกรมหรือการแปลงค่าคงที่คิว จากนั้นใช้โครงข่ายประสาทเทียมระดับลึกเพื่อคาดการณ์การเริ่มต้นของโน้ต ออฟเซ็ต และระดับเสียงสูงต่ำ โมเดล Onsets and Frames ของ Google เป็นจุดสังเกตสำหรับการถอดเสียงเปียโน ในขณะที่โมเดลทรานส์ฟอร์มเมอร์รุ่นใหม่ๆ เช่น MT3 สามารถถอดเสียงเครื่องดนตรีหลายเครื่องพร้อมกันได้

ข้อมูลเชิงลึกทางเทคนิค

ข้อมูลเชิงลึกที่สำคัญคือการแยกการตรวจจับการโจมตีออกจากการตรวจจับระดับเสียงระดับเฟรม โมเดลอย่าง Onsets และ Frames ใช้ Network Head หนึ่งตัวเพื่อระบุช่วงเวลาที่โน้ตเริ่มต้นอย่างแม่นยำ (เหตุการณ์ที่คมชัดและมีพลัง) และอีกอันเพื่อติดตามว่าเสียงใดดังขึ้นในแต่ละเฟรม การคาดการณ์ที่เริ่มต้นจะควบคุมเอาท์พุตของเฟรม ซึ่งช่วยลดบันทึกย่อปลอมได้อย่างมาก การแปลงค่าคงที่-Q ช่วยได้เนื่องจากจะเว้นช่องความถี่แบบลอการิทึม ซึ่งตรงกับวิธีการแบ่งระดับเสียงดนตรีออกจากกันหนึ่งอ็อกเทฟ

การเรียนรู้การถอดเสียงเพลงอัตโนมัติ

การถอดเสียงเพลงอัตโนมัติ (AMT) จะแปลงเสียงบันทึกดิบของเพลงให้เป็นสัญลักษณ์เชิงสัญลักษณ์ เช่น โน้ตเพลง, MIDI หรือเปียโนโรล มันจัดการหนึ่งในปัญหาที่ยากที่สุดในเสียง AI: แก้โน้ตที่ทับซ้อนกันหลายอันที่เล่นในคราวเดียว การถอดเสียงเพลงอัตโนมัติอยู่ในเวิร์กโฟลว์เสียง-AI ที่แปลงคำพูด เพลง และเสียงเพื่อการสื่อสาร การเข้าถึง และการผลิตสื่อ เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่าการถอดเสียงเพลงอัตโนมัติเป็นรูปแบบการทำงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้การถอดเสียงเพลงอัตโนมัติจะถือว่าคุณภาพ เวลาแฝง และความยินยอมเป็นส่วนสำคัญของกลยุทธ์การปรับใช้ โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในขณะเดียวกัน การใช้ Voice ในทางที่ผิดและการแอบอ้างบุคคลอื่นก็มีความเสี่ยงเพิ่มขึ้นเมื่อไม่ได้รับความยินยอม แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการถอดเสียงเพลงอัตโนมัติ

AMT กำลังเปลี่ยนจากเปียโนเดี่ยวไปสู่การถอดเสียงเครื่องดนตรีหลายเครื่องดนตรีและฟูลแบนด์ที่เชื่อถือได้ รวมถึงกลอง เสียงร้อง และเทคนิคการแสดงอารมณ์ เช่น การโค้งงอและเสียงสั่น สถาปัตยกรรมหม้อแปลงไฟฟ้าที่ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลสังเคราะห์ขนาดใหญ่และชุดข้อมูลที่สอดคล้องกันกำลังปิดช่องว่าง คาดหวังการผสานรวมที่เข้มงวดยิ่งขึ้นกับการแยกแหล่งที่มา การถอดเสียงแบบเรียลไทม์สำหรับการแสดงสด และเครื่องมือที่บันทึกช่วงเวลาย่อยและไดนามิก ไม่ใช่แค่บันทึกย่อ เป้าหมายระยะยาวคือระบบที่จะเปลี่ยนการบันทึกใดๆ ให้เป็นคะแนนที่แก้ไขได้และมนุษย์สามารถอ่านได้

การใช้งานจริงในโลกแห่งความเป็นจริง

AnthemScore และแอปที่คล้ายกันจะแปลงการบันทึก MP3 ให้เป็นโน้ตเพลงที่แก้ไขได้สำหรับนักดนตรีที่เรียนรู้เพลงจากหู

การแยก MIDI จากการบันทึกเสียงเปียโน เพื่อให้โปรดิวเซอร์สามารถเปล่งเสียงใหม่หรือกำหนดปริมาณการแสดงใน DAW

เครื่องมือการศึกษาด้านดนตรีที่เปรียบเทียบโน้ตที่เล่นของนักเรียนกับคะแนนเพื่อแจ้งโน้ตที่ผิดหรือพลาด

นักดนตรีที่ถอดเสียงการบันทึกในอดีตหรือแบบด้นสด (เช่น โซโล่แจ๊ส) มาเป็นโน้ตเพื่อการวิเคราะห์

รูปแบบการดำเนินงาน

การถอดเสียงเพลงอัตโนมัติในทางปฏิบัติ

AnthemScore และแอปที่คล้ายกันจะแปลงการบันทึก MP3 ให้เป็นโน้ตเพลงที่แก้ไขได้สำหรับนักดนตรีที่เรียนรู้เพลงจากหู

AnthemScore และแอปที่คล้ายกันซึ่งแปลงการบันทึก MP3 ให้เป็นแผ่นเพลงที่แก้ไขได้สำหรับนักดนตรีที่เรียนเพลงด้วยหู ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การถอดเสียงเพลงอัตโนมัติในทางปฏิบัติ

การแยก MIDI จากการบันทึกเสียงเปียโน เพื่อให้โปรดิวเซอร์สามารถเปล่งเสียงใหม่หรือกำหนดปริมาณการแสดงใน DAW ได้

การแยก MIDI จากการบันทึกเปียโน เพื่อให้โปรดิวเซอร์สามารถเปล่งเสียงใหม่หรือควบคุมปริมาณการแสดงใน DAW Teams มักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับ Edge Case และติดตามทั้งประสิทธิภาพที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การถอดเสียงเพลงอัตโนมัติในทางปฏิบัติ

เครื่องมือการศึกษาด้านดนตรีที่เปรียบเทียบโน้ตที่เล่นของนักเรียนกับคะแนนเพื่อแจ้งโน้ตที่ผิดหรือพลาด

เครื่องมือการศึกษาด้านดนตรีที่เปรียบเทียบโน้ตที่เล่นของนักเรียนกับคะแนนเพื่อทำเครื่องหมายโน้ตผิดหรือพลาด ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การถอดเสียงเพลงอัตโนมัติในทางปฏิบัติ

นักดนตรีที่ถอดเสียงการบันทึกในอดีตหรือแบบด้นสด (เช่น โซโล่แจ๊ส) มาเป็นโน้ตเพื่อการวิเคราะห์

นักดนตรีที่ถอดเสียงการบันทึกในอดีตหรือด้นสด (เช่น โซโลแจ๊ส) ให้เป็นโน้ตสำหรับการวิเคราะห์ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับ Edge Case และติดตามทั้งประสิทธิภาพที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การใช้เสียงในทางที่ผิดและการแอบอ้างบุคคลอื่นมีความเสี่ยงเพิ่มขึ้นเมื่อขาดความยินยอม

!

ความแม่นยำอาจลดลงตามสำเนียง ภาษาถิ่น หรือสภาพแวดล้อมที่มีเสียงดัง

!

เสียงสังเคราะห์อาจถูกเข้าใจผิดว่าเป็นเสียงพูดที่แท้จริงโดยไม่มีการกำกับที่ชัดเจน

แผนงานการดำเนินงาน

1

ได้รับความยินยอมอย่างชัดแจ้งสำหรับการจับเสียง การโคลน และการใช้ซ้ำ

ได้รับความยินยอมอย่างชัดแจ้งสำหรับการจับเสียง การโคลน และการใช้ซ้ำ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบคุณภาพกับลำโพงและสภาพพื้นหลังที่หลากหลาย

ทดสอบคุณภาพกับลำโพงและสภาพพื้นหลังที่หลากหลาย ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

กำหนดเวลาที่มนุษย์จะต้องตรวจสอบหรืออนุมัติผลลัพธ์

กำหนดเวลาที่มนุษย์จะต้องตรวจสอบหรืออนุมัติผลลัพธ์ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดป้ายกำกับเสียงสังเคราะห์และเก็บบันทึกที่มาเพื่อความรับผิดชอบ

ติดป้ายกำกับเสียงสังเคราะห์และเก็บบันทึกที่มาเพื่อความรับผิดชอบ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป