คู่มือป้องกันการปลอมแปลงและ ASVspoof ของลำโพง

ภาพรวม

การป้องกันการปลอมแปลงเป็นเลเยอร์การป้องกันที่ตรวจจับเสียงปลอมหรือเสียงที่เล่นซ้ำซึ่งพยายามหลอกระบบการตรวจสอบสิทธิ์เสียง ASVspoof เป็นความท้าทายด้านการวิจัยที่สำคัญซึ่งขับเคลื่อนสาขานี้ โดยจัดให้มีชุดข้อมูลและตัวชี้วัดที่ใช้ร่วมกันเพื่อวัดว่าระบบตรวจพบคำพูดที่ปลอมแปลงได้ดีเพียงใด

Speaker Anti-Spoofing และ ASVspoof ตั้งอยู่ในเวิร์กโฟลว์เสียง-AI ที่แปลงคำพูด เพลง และเสียงเพื่อการสื่อสาร การเข้าถึง และการผลิตสื่อ

เจาะลึก

ระบบการตรวจสอบวิทยากรอาจถูกหลอกได้ด้วยการโจมตีด้วยการปลอมแปลง: เล่นเสียงที่บันทึกไว้ซ้ำ สังเคราะห์เสียงของเป้าหมายด้วยการแปลงข้อความเป็นคำพูด หรือแปลงเสียงของบุคคลหนึ่งให้เป็นเสียงของบุคคลอื่น การป้องกันการปลอมแปลง (เรียกอีกอย่างว่าการตรวจจับการโจมตีในการนำเสนอหรือการตรวจจับ 'ความมีชีวิตชีวา') จะฝึกตัวแยกประเภทที่แยกต่างหากเพื่อติดป้ายกำกับเสียงโดยสุจริตหรือเป็นการปลอมแปลง ซีรีส์ท้าทาย ASVspoof ซึ่งเริ่มดำเนินการมาตั้งแต่ปี 2558 ได้สร้างมาตรฐานให้กับงานนี้ ASVspoof 2019 แบ่งการโจมตีออกเป็นการเข้าถึงแบบลอจิคัล (TTS และการแปลงเสียง) และการเข้าถึงทางกายภาพ (เล่นซ้ำ) ในขณะที่รุ่นปี 2021 ได้เพิ่มแทร็ก Deepfake และความผิดเพี้ยนของตัวแปลงสัญญาณ/การส่งสัญญาณ ประสิทธิภาพจะได้รับการรายงานด้วยอัตราข้อผิดพลาดที่เท่ากัน และที่สำคัญกว่านั้นคือฟังก์ชันต้นทุนการตรวจจับแบบคู่ (t-DCF) ซึ่งจะประเมินเครื่องตรวจจับการปลอมแปลงร่วมกับระบบการตรวจสอบ แทนที่จะแยกออกจากกัน

ข้อมูลเชิงลึกทางเทคนิค

เครื่องตรวจจับสมัยใหม่มองหาสิ่งประดิษฐ์เล็กๆ น้อยๆ ที่การสังเคราะห์และการเล่นซ้ำทิ้งไว้เบื้องหลัง: เฟสที่ไม่เป็นธรรมชาติ รายละเอียดความถี่สูงหายไป ความไม่ต่อเนื่องของสเปกตรัม และการเปลี่ยนสีของช่องสัญญาณ ระบบที่แข็งแกร่งจะป้อนรูปคลื่นดิบลงในโมเดลแบบ end-to-end เช่น RawNet2, AASIST (ซึ่งใช้เครือข่ายความสนใจแบบกราฟบนแถบความถี่ย่อยสเปกตรัมและชั่วคราว) หรือส่วนหน้าที่มีการดูแลตนเอง เช่น wav2vec 2.0 ผลลัพธ์จะเป็นคะแนน 'มาตรการตอบโต้' เดี่ยวที่ตรรกะดาวน์สตรีมรวมกับคะแนนการยืนยันของผู้พูด

การเรียนรู้ระบบป้องกันการปลอมแปลงและ ASVspoof ของลำโพง

หากต้องการสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Speaker Anti-Spoofing และ ASVspoof เป็นรูปแบบการทำงาน ไม่ใช่คุณลักษณะเดียว กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Speaker Anti-Spoofing และ ASVspoof จะถือว่าคุณภาพ เวลาแฝง และความยินยอมเป็นส่วนสำคัญของกลยุทธ์การปรับใช้ โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในขณะเดียวกัน การใช้ Voice ในทางที่ผิดและการแอบอ้างบุคคลอื่นก็มีความเสี่ยงเพิ่มขึ้นเมื่อไม่ได้รับความยินยอม แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการต่อต้านการปลอมแปลงและการปลอมแปลง ASV ของลำโพง

เนื่องจากการโคลนเสียงแบบกำเนิดใกล้จะสมบูรณ์แบบแล้ว เครื่องตรวจจับช่องว่างสิ่งประดิษฐ์ที่ต้องพึ่งพาก็กำลังหดตัวลง ดังนั้นฟิลด์นี้จึงเปลี่ยนไปสู่การโจมตีแบบทั่วไปไปยังประเภทการโจมตีที่มองไม่เห็น คุณสมบัติที่ควบคุมตนเอง และลายน้ำเสียงที่ติดป้ายกำกับคำพูดสังเคราะห์ที่แหล่งที่มา ASVspoof 5 และความพยายามในการตรวจจับ Deepfake ที่เกี่ยวข้องจะเน้นย้ำถึงความแข็งแกร่งของตัวแปลงสัญญาณ ภาษา และตัวสร้างใหม่ คาดว่าการป้องกันการปลอมแปลงจะหลอมรวมกับการตรวจสอบเสียงและการปลอมแปลงทางเสียงในวงกว้าง และเพื่อจัดส่งภายในโทรศัพท์และศูนย์บริการทางโทรศัพท์เมื่อมีการฉ้อโกงทางเสียงเพิ่มมากขึ้น

การใช้งานจริงในโลกแห่งความเป็นจริง

การบล็อกการบันทึกซ้ำของวลี 'เสียงของฉันคือรหัสผ่านของฉัน' ของใครบางคนที่จุดตรวจสอบการเข้าสู่ระบบด้วยเสียง

การตรวจจับเสียงที่โคลนโดย AI ในการโทรที่เป็นการฉ้อโกงซึ่งแอบอ้างเป็น CEO ที่อนุญาตให้โอนเงิน

การคัดกรองเสียงของศูนย์บริการทางโทรศัพท์สำหรับคำพูดสังเคราะห์ก่อนที่จะให้สิทธิ์การเข้าถึงบัญชี

การเปรียบเทียบการป้องกันใหม่บนชุดข้อมูล ASVspoof สาธารณะเพื่อเปรียบเทียบระบบตอบโต้อย่างยุติธรรม

รูปแบบการดำเนินงาน

การป้องกันการปลอมแปลงของลำโพงและการปลอมแปลง ASV ในทางปฏิบัติ

การบล็อกการบันทึกซ้ำของวลี 'เสียงของฉันคือรหัสผ่านของฉัน' ของใครบางคนที่จุดตรวจสอบการเข้าสู่ระบบด้วยเสียง

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การป้องกันการปลอมแปลงของลำโพงและการปลอมแปลง ASV ในทางปฏิบัติ

การตรวจจับเสียงที่โคลนโดย AI ในการโทรที่เป็นการฉ้อโกงซึ่งแอบอ้างเป็น CEO ที่อนุญาตให้โอนเงิน

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การป้องกันการปลอมแปลงของลำโพงและการปลอมแปลง ASV ในทางปฏิบัติ

การคัดกรองเสียงของศูนย์บริการทางโทรศัพท์สำหรับคำพูดสังเคราะห์ก่อนที่จะให้สิทธิ์การเข้าถึงบัญชี

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การป้องกันการปลอมแปลงของลำโพงและการปลอมแปลง ASV ในทางปฏิบัติ

การเปรียบเทียบการป้องกันใหม่บนชุดข้อมูล ASVspoof สาธารณะเพื่อเปรียบเทียบระบบตอบโต้อย่างยุติธรรม

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การใช้เสียงในทางที่ผิดและการแอบอ้างบุคคลอื่นมีความเสี่ยงเพิ่มขึ้นเมื่อขาดความยินยอม

!

ความแม่นยำอาจลดลงตามสำเนียง ภาษาถิ่น หรือสภาพแวดล้อมที่มีเสียงดัง

!

เสียงสังเคราะห์อาจถูกเข้าใจผิดว่าเป็นเสียงพูดที่แท้จริงโดยไม่มีการกำกับที่ชัดเจน

แผนงานการดำเนินงาน

1

ได้รับความยินยอมอย่างชัดแจ้งสำหรับการจับเสียง การโคลน และการใช้ซ้ำ

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบคุณภาพกับลำโพงและสภาพพื้นหลังที่หลากหลาย

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

กำหนดเวลาที่มนุษย์จะต้องตรวจสอบหรืออนุมัติผลลัพธ์

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดป้ายกำกับเสียงสังเคราะห์และเก็บบันทึกที่มาเพื่อความรับผิดชอบ

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป

เสียงเอไอ

เรียนรู้ว่าระบบคำพูดจดจำและสร้างภาษาได้อย่างไร

อ่านคู่มือ

เอไอ มิวสิค

ทำความเข้าใจเครื่องมือและข้อจำกัดในการสร้างดนตรียุคใหม่

อ่านคู่มือ

ระบบป้องกันการปลอมแปลงลำโพงและ ASVspoof

ภาพรวม

เจาะลึก

ข้อมูลเชิงลึกทางเทคนิค

การเรียนรู้ระบบป้องกันการปลอมแปลงและ ASVspoof ของลำโพง

ผลกระทบเชิงกลยุทธ์

อนาคตของการต่อต้านการปลอมแปลงและการปลอมแปลง ASV ของลำโพง

การใช้งานจริงในโลกแห่งความเป็นจริง

รูปแบบการดำเนินงาน

การป้องกันการปลอมแปลงของลำโพงและการปลอมแปลง ASV ในทางปฏิบัติ

การป้องกันการปลอมแปลงของลำโพงและการปลอมแปลง ASV ในทางปฏิบัติ

การป้องกันการปลอมแปลงของลำโพงและการปลอมแปลง ASV ในทางปฏิบัติ

การป้องกันการปลอมแปลงของลำโพงและการปลอมแปลง ASV ในทางปฏิบัติ

ความเสี่ยงและรั้ว

แผนงานการดำเนินงาน

สำรวจต่อไป

เสียงเอไอ

เอไอ มิวสิค

Related guides