คู่มือการสังเคราะห์เสียงที่สร้างความแตกต่างได้ของ DDSP

ภาพรวม

DDSP (การประมวลผลสัญญาณดิจิทัลที่แตกต่าง) หลอมรวมบล็อคซินธิไซเซอร์แบบคลาสสิกเข้ากับโครงข่ายประสาทเทียม ดังนั้นการเรียนรู้เชิงลึกจึงสามารถควบคุมออสซิลเลเตอร์และตัวกรองได้โดยตรง สร้างเสียงเครื่องดนตรีที่เป็นธรรมชาติและควบคุมได้อย่างยอดเยี่ยมด้วยโมเดลขนาดเล็กและข้อมูลเพียงเล็กน้อย

การสังเคราะห์เสียงที่แตกต่างของ DDSP ตั้งอยู่ในเวิร์กโฟลว์เสียง-AI ที่แปลงคำพูด ดนตรี และเสียงเพื่อการสื่อสาร การเข้าถึง และการผลิตสื่อ

เจาะลึก

DDSP เปิดตัวโดยทีม Magenta ของ Google ในปี 2020 คิดใหม่เกี่ยวกับการสร้างเสียงแบบนิวรัล แทนที่จะใช้เครือข่ายทำนายตัวอย่างเสียงดิบทีละตัวอย่าง (เช่น WaveNet) หรือพิกเซลของสเปกโตรแกรม DDSP จะสร้างส่วนประกอบ DSP แบบดั้งเดิม — ออสซิลเลเตอร์เสริมฮาร์มอนิก, เครื่องกำเนิดสัญญาณรบกวนที่ถูกกรอง และเสียงก้อง — ซึ่งสามารถหาความแตกต่างได้ นั่นหมายความว่าการไล่ระดับสีสามารถไหลผ่านพวกมันได้ในระหว่างการฝึกซ้อม ดังนั้นโครงข่ายประสาทเทียมขนาดเล็กจึงเรียนรู้ที่จะส่งสัญญาณควบคุมที่ตีความได้ ได้แก่ ระดับเสียงพื้นฐาน ความดังโดยรวม และแอมพลิจูดของฮาร์โมนิคหลายสิบตัวเมื่อเวลาผ่านไป จากนั้นซินธิไซเซอร์จะเรนเดอร์เสียงจริงจากส่วนควบคุมเหล่านี้ เนื่องจากฟิสิกส์ของเสียงถูกฝังอยู่ในสถาปัตยกรรมแทนที่จะเรียนรู้ตั้งแต่เริ่มต้น DDSP จึงได้คุณภาพสูงโดยใช้พารามิเตอร์และตัวอย่างการฝึกอบรมที่น้อยกว่ามาก และช่วยให้ผู้ใช้สามารถปรับระดับเสียงสูงต่ำ ความดัง และเสียงต่ำได้อย่างอิสระ แม้กระทั่งการถ่ายโอนเสียงร้อง เช่น การเล่นเสียงร้องเหมือนไวโอลิน

ข้อมูลเชิงลึกทางเทคนิค

แกนหลักคือซินธิไซเซอร์การสร้างแบบจำลองสเปกตรัม: ธนาคารออสซิลเลเตอร์ฮาร์มอนิกจะสร้างผลรวมของคลื่นไซน์ที่จำนวนเต็มทวีคูณของความถี่พื้นฐาน ในขณะที่เส้นทางที่แยกจากกันจะกรองสัญญาณรบกวนสีขาวเพื่อความหายใจและพื้นผิวที่ประสานกันไม่ได้ โครงข่ายประสาทเทียมไม่เคยส่งสัญญาณเสียงออกโดยตรง แต่จะส่งสัญญาณพารามิเตอร์ควบคุมที่แปรผันตามเวลา (f0, ความดัง, การกระจายฮาร์มอนิก, ค่าสัมประสิทธิ์ตัวกรอง) การฝึกอบรมใช้การสูญเสียสเปกโตรแกรมหลายระดับโดยเปรียบเทียบเสียงที่สร้างขึ้นและเสียงเป้าหมายในหน้าต่าง FFT หลายขนาด ซึ่งทนทานต่อความแตกต่างของเฟส

การเรียนรู้การสังเคราะห์เสียงที่แตกต่างของ DDSP

หากต้องการสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า DDSP Differentiable Audio Sclusion เป็นโมเดลการทำงาน ไม่ใช่คุณลักษณะเดียว กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้การสังเคราะห์เสียงที่แตกต่างของ DDSP ถือว่าคุณภาพ เวลาแฝง และความยินยอมเป็นส่วนสำคัญของกลยุทธ์การปรับใช้ โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในขณะเดียวกัน การใช้ Voice ในทางที่ผิดและการแอบอ้างบุคคลอื่นก็มีความเสี่ยงเพิ่มขึ้นเมื่อไม่ได้รับความยินยอม แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการสังเคราะห์เสียงที่แตกต่างของ DDSP

DDSP กำลังผลักดันเครื่องมือประสาทและเอฟเฟกต์เสียงแบบเรียลไทม์ที่มีความหน่วงต่ำที่ทำงานบนฮาร์ดแวร์ขนาดเล็ก รวมถึงในเบราว์เซอร์และอุปกรณ์ฝังตัว ส่วนควบคุมที่ตีความได้ทำให้เหมาะอย่างยิ่งสำหรับเครื่องมือแสดงอารมณ์และซินธิไซเซอร์แบบไฮบริดที่นักดนตรีหมุนเสียงต่ำโดยตรง นักวิจัยกำลังขยายแนวคิด DSP ที่แตกต่างไปสู่การสร้างแบบจำลองทางกายภาพ เสียงในห้อง และห่วงโซ่การผลิตเสียงเต็มรูปแบบ ผสมผสานความสามารถในการควบคุมของการประมวลผลสัญญาณแบบคลาสสิกเข้ากับความสมจริงของการเรียนรู้เชิงลึกผ่านการสร้างสรรค์ดนตรีและการออกแบบเสียง

การใช้งานจริงในโลกแห่งความเป็นจริง

เครื่องมือถ่ายโอน Timbre ที่ใช้ทำนองฮัมเพลงหรือร้องแล้วเรนเดอร์ใหม่เป็นไวโอลิน ฟลุต หรือทรัมเป็ตแบบเรียลไทม์

ปลั๊กอินซินธิไซเซอร์ประสาทน้ำหนักเบาที่นักดนตรีควบคุมด้วยปุ่มระดับเสียง ความดัง และความสว่างที่ใช้งานง่าย

การแก้ไขระดับเสียงและการสังเคราะห์ใหม่ของเครื่องมือที่บันทึกไว้โดยยังคงรักษารายละเอียดฮาร์มอนิกตามธรรมชาติ

การสาธิตเพลงแบบโต้ตอบบนเบราว์เซอร์ที่สร้างเสียงเครื่องดนตรีที่สมจริงโดยไม่ต้องใช้ GPU รุ่นหนัก

รูปแบบการดำเนินงาน

DDSP การสังเคราะห์เสียงที่แตกต่างในทางปฏิบัติ

เครื่องมือถ่ายโอน Timbre ที่ใช้ทำนองฮัมเพลงหรือร้องแล้วเรนเดอร์ใหม่เป็นไวโอลิน ฟลุต หรือทรัมเป็ตแบบเรียลไทม์

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

DDSP การสังเคราะห์เสียงที่แตกต่างในทางปฏิบัติ

ปลั๊กอินซินธิไซเซอร์ประสาทน้ำหนักเบาที่นักดนตรีควบคุมด้วยปุ่มระดับเสียง ความดัง และความสว่างที่ใช้งานง่าย

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

DDSP การสังเคราะห์เสียงที่แตกต่างในทางปฏิบัติ

การแก้ไขระดับเสียงและการสังเคราะห์ใหม่ของเครื่องมือที่บันทึกไว้โดยยังคงรักษารายละเอียดฮาร์มอนิกตามธรรมชาติ

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

DDSP การสังเคราะห์เสียงที่แตกต่างในทางปฏิบัติ

การสาธิตเพลงแบบโต้ตอบบนเบราว์เซอร์ที่สร้างเสียงเครื่องดนตรีที่สมจริงโดยไม่ต้องใช้ GPU รุ่นหนัก

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การใช้เสียงในทางที่ผิดและการแอบอ้างบุคคลอื่นมีความเสี่ยงเพิ่มขึ้นเมื่อขาดความยินยอม

!

ความแม่นยำอาจลดลงตามสำเนียง ภาษาถิ่น หรือสภาพแวดล้อมที่มีเสียงดัง

!

เสียงสังเคราะห์อาจถูกเข้าใจผิดว่าเป็นเสียงพูดที่แท้จริงโดยไม่มีการกำกับที่ชัดเจน

แผนงานการดำเนินงาน

1

ได้รับความยินยอมอย่างชัดแจ้งสำหรับการจับเสียง การโคลน และการใช้ซ้ำ

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบคุณภาพกับลำโพงและสภาพพื้นหลังที่หลากหลาย

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

กำหนดเวลาที่มนุษย์จะต้องตรวจสอบหรืออนุมัติผลลัพธ์

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดป้ายกำกับเสียงสังเคราะห์และเก็บบันทึกที่มาเพื่อความรับผิดชอบ

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป

เสียงเอไอ

เรียนรู้ว่าระบบคำพูดจดจำและสร้างภาษาได้อย่างไร

อ่านคู่มือ

เอไอ มิวสิค

ทำความเข้าใจเครื่องมือและข้อจำกัดในการสร้างดนตรียุคใหม่

อ่านคู่มือ

การสังเคราะห์เสียงที่แตกต่าง DDSP

ภาพรวม

เจาะลึก

ข้อมูลเชิงลึกทางเทคนิค

การเรียนรู้การสังเคราะห์เสียงที่แตกต่างของ DDSP

ผลกระทบเชิงกลยุทธ์

อนาคตของการสังเคราะห์เสียงที่แตกต่างของ DDSP

การใช้งานจริงในโลกแห่งความเป็นจริง

รูปแบบการดำเนินงาน

DDSP การสังเคราะห์เสียงที่แตกต่างในทางปฏิบัติ

DDSP การสังเคราะห์เสียงที่แตกต่างในทางปฏิบัติ

DDSP การสังเคราะห์เสียงที่แตกต่างในทางปฏิบัติ

DDSP การสังเคราะห์เสียงที่แตกต่างในทางปฏิบัติ

ความเสี่ยงและรั้ว

แผนงานการดำเนินงาน

สำรวจต่อไป

เสียงเอไอ

เอไอ มิวสิค

Related guides