คู่มือเสียง AI

ระบบป้องกันการปลอมแปลงลำโพงและ ASVspoof

การป้องกันการปลอมแปลงเป็นเลเยอร์การป้องกันที่ตรวจจับเสียงปลอมหรือเสียงที่เล่นซ้ำซึ่งพยายามหลอกระบบการตรวจสอบสิทธิ์เสียง

ภาพรวม

การป้องกันการปลอมแปลงเป็นเลเยอร์การป้องกันที่ตรวจจับเสียงปลอมหรือเสียงที่เล่นซ้ำซึ่งพยายามหลอกระบบการตรวจสอบสิทธิ์เสียง ASVspoof เป็นความท้าทายด้านการวิจัยที่สำคัญซึ่งขับเคลื่อนสาขานี้ โดยจัดให้มีชุดข้อมูลและตัวชี้วัดที่ใช้ร่วมกันเพื่อวัดว่าระบบตรวจพบคำพูดที่ปลอมแปลงได้ดีเพียงใด

Speaker Anti-Spoofing และ ASVspoof ตั้งอยู่ในเวิร์กโฟลว์เสียง-AI ที่แปลงคำพูด เพลง และเสียงเพื่อการสื่อสาร การเข้าถึง และการผลิตสื่อ

เจาะลึก

ระบบการตรวจสอบวิทยากรอาจถูกหลอกได้ด้วยการโจมตีด้วยการปลอมแปลง: เล่นเสียงที่บันทึกไว้ซ้ำ สังเคราะห์เสียงของเป้าหมายด้วยการแปลงข้อความเป็นคำพูด หรือแปลงเสียงของบุคคลหนึ่งให้เป็นเสียงของบุคคลอื่น การป้องกันการปลอมแปลง (เรียกอีกอย่างว่าการตรวจจับการโจมตีในการนำเสนอหรือการตรวจจับ 'ความมีชีวิตชีวา') จะฝึกตัวแยกประเภทที่แยกต่างหากเพื่อติดป้ายกำกับเสียงโดยสุจริตหรือเป็นการปลอมแปลง ซีรีส์ท้าทาย ASVspoof ซึ่งเริ่มดำเนินการมาตั้งแต่ปี 2558 ได้สร้างมาตรฐานให้กับงานนี้ ASVspoof 2019 แบ่งการโจมตีออกเป็นการเข้าถึงแบบลอจิคัล (TTS และการแปลงเสียง) และการเข้าถึงทางกายภาพ (เล่นซ้ำ) ในขณะที่รุ่นปี 2021 ได้เพิ่มแทร็ก Deepfake และความผิดเพี้ยนของตัวแปลงสัญญาณ/การส่งสัญญาณ ประสิทธิภาพจะได้รับการรายงานด้วยอัตราข้อผิดพลาดที่เท่ากัน และที่สำคัญกว่านั้นคือฟังก์ชันต้นทุนการตรวจจับแบบคู่ (t-DCF) ซึ่งจะประเมินเครื่องตรวจจับการปลอมแปลงร่วมกับระบบการตรวจสอบ แทนที่จะแยกออกจากกัน

ข้อมูลเชิงลึกทางเทคนิค

เครื่องตรวจจับสมัยใหม่มองหาสิ่งประดิษฐ์เล็กๆ น้อยๆ ที่การสังเคราะห์และการเล่นซ้ำทิ้งไว้เบื้องหลัง: เฟสที่ไม่เป็นธรรมชาติ รายละเอียดความถี่สูงหายไป ความไม่ต่อเนื่องของสเปกตรัม และการเปลี่ยนสีของช่องสัญญาณ ระบบที่แข็งแกร่งจะป้อนรูปคลื่นดิบลงในโมเดลแบบ end-to-end เช่น RawNet2, AASIST (ซึ่งใช้เครือข่ายความสนใจแบบกราฟบนแถบความถี่ย่อยสเปกตรัมและชั่วคราว) หรือส่วนหน้าที่มีการดูแลตนเอง เช่น wav2vec 2.0 ผลลัพธ์จะเป็นคะแนน 'มาตรการตอบโต้' เดี่ยวที่ตรรกะดาวน์สตรีมรวมกับคะแนนการยืนยันของผู้พูด

การเรียนรู้ระบบป้องกันการปลอมแปลงและ ASVspoof ของลำโพง

การป้องกันการปลอมแปลงเป็นเลเยอร์การป้องกันที่ตรวจจับเสียงปลอมหรือเสียงที่เล่นซ้ำซึ่งพยายามหลอกระบบการตรวจสอบสิทธิ์เสียง ASVspoof เป็นความท้าทายด้านการวิจัยที่สำคัญซึ่งขับเคลื่อนสาขานี้ โดยจัดให้มีชุดข้อมูลและตัวชี้วัดที่ใช้ร่วมกันเพื่อวัดว่าระบบตรวจพบคำพูดที่ปลอมแปลงได้ดีเพียงใด Speaker Anti-Spoofing และ ASVspoof ตั้งอยู่ในเวิร์กโฟลว์เสียง-AI ที่แปลงคำพูด เพลง และเสียงเพื่อการสื่อสาร การเข้าถึง และการผลิตสื่อ เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Speaker Anti-Spoofing และ ASVspoof เป็นรูปแบบการทำงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Speaker Anti-Spoofing และ ASVspoof จะถือว่าคุณภาพ เวลาแฝง และความยินยอมเป็นส่วนสำคัญของกลยุทธ์การปรับใช้ โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในขณะเดียวกัน การใช้ Voice ในทางที่ผิดและการแอบอ้างบุคคลอื่นก็มีความเสี่ยงเพิ่มขึ้นเมื่อไม่ได้รับความยินยอม แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง

ปรับปรุงการเข้าถึงผ่านการถอดเสียง คำบรรยาย และอินเทอร์เฟซเสียง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง

ทีมสื่อสามารถจัดส่งเสียงที่สวยงามได้รวดเร็วยิ่งขึ้นด้วยงบประมาณที่น้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น

ระบบที่ติดต่อกับลูกค้าสามารถประมวลผลการโต้ตอบด้วยเสียงในขนาดที่ใหญ่ขึ้น ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการต่อต้านการปลอมแปลงและการปลอมแปลง ASV ของลำโพง

เนื่องจากการโคลนเสียงแบบกำเนิดใกล้จะสมบูรณ์แบบแล้ว เครื่องตรวจจับช่องว่างสิ่งประดิษฐ์ที่ต้องพึ่งพาก็กำลังหดตัวลง ดังนั้นฟิลด์นี้จึงเปลี่ยนไปสู่การโจมตีแบบทั่วไปไปยังประเภทการโจมตีที่มองไม่เห็น คุณสมบัติที่ควบคุมตนเอง และลายน้ำเสียงที่ติดป้ายกำกับคำพูดสังเคราะห์ที่แหล่งที่มา ASVspoof 5 และความพยายามในการตรวจจับ Deepfake ที่เกี่ยวข้องจะเน้นย้ำถึงความแข็งแกร่งของตัวแปลงสัญญาณ ภาษา และตัวสร้างใหม่ คาดว่าการป้องกันการปลอมแปลงจะหลอมรวมกับการตรวจสอบเสียงและการปลอมแปลงทางเสียงในวงกว้าง และเพื่อจัดส่งภายในโทรศัพท์และศูนย์บริการทางโทรศัพท์เมื่อมีการฉ้อโกงทางเสียงเพิ่มมากขึ้น

การใช้งานจริงในโลกแห่งความเป็นจริง

การบล็อกการบันทึกซ้ำของวลี 'เสียงของฉันคือรหัสผ่านของฉัน' ของใครบางคนที่จุดตรวจสอบการเข้าสู่ระบบด้วยเสียง

การตรวจจับเสียงที่โคลนโดย AI ในการโทรที่เป็นการฉ้อโกงซึ่งแอบอ้างเป็น CEO ที่อนุญาตให้โอนเงิน

การคัดกรองเสียงของศูนย์บริการทางโทรศัพท์สำหรับคำพูดสังเคราะห์ก่อนที่จะให้สิทธิ์การเข้าถึงบัญชี

การเปรียบเทียบการป้องกันใหม่บนชุดข้อมูล ASVspoof สาธารณะเพื่อเปรียบเทียบระบบตอบโต้อย่างยุติธรรม

รูปแบบการดำเนินงาน

การป้องกันการปลอมแปลงของลำโพงและการปลอมแปลง ASV ในทางปฏิบัติ

การบล็อกการบันทึกซ้ำของวลี 'เสียงของฉันคือรหัสผ่านของฉัน' ของใครบางคนที่จุดตรวจสอบการเข้าสู่ระบบด้วยเสียง

การบล็อกการบันทึกซ้ำของวลี 'เสียงของฉันคือรหัสผ่านของฉัน' ของใครบางคนที่จุดตรวจสอบการเข้าสู่ระบบด้วยเสียง ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การป้องกันการปลอมแปลงของลำโพงและการปลอมแปลง ASV ในทางปฏิบัติ

การตรวจจับเสียงที่โคลนโดย AI ในการโทรที่เป็นการฉ้อโกงซึ่งแอบอ้างเป็น CEO ที่อนุญาตให้โอนเงิน

การตรวจจับเสียงที่โคลนโดย AI ในการโทรที่เป็นการฉ้อโกงซึ่งแอบอ้างเป็น CEO ที่อนุญาตให้โอนเงิน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การป้องกันการปลอมแปลงของลำโพงและการปลอมแปลง ASV ในทางปฏิบัติ

การคัดกรองเสียงของศูนย์บริการทางโทรศัพท์สำหรับคำพูดสังเคราะห์ก่อนที่จะให้สิทธิ์การเข้าถึงบัญชี

การกรองเสียงของศูนย์บริการทางโทรศัพท์สำหรับคำพูดสังเคราะห์ก่อนที่จะให้สิทธิ์การเข้าถึงบัญชี ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การป้องกันการปลอมแปลงของลำโพงและการปลอมแปลง ASV ในทางปฏิบัติ

การเปรียบเทียบการป้องกันใหม่บนชุดข้อมูล ASVspoof สาธารณะเพื่อเปรียบเทียบระบบตอบโต้อย่างยุติธรรม

การเปรียบเทียบการป้องกันใหม่บนชุดข้อมูล ASVspoof สาธารณะเพื่อเปรียบเทียบระบบมาตรการรับมืออย่างยุติธรรม ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อกำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การใช้เสียงในทางที่ผิดและการแอบอ้างบุคคลอื่นมีความเสี่ยงเพิ่มขึ้นเมื่อขาดความยินยอม

!

ความแม่นยำอาจลดลงตามสำเนียง ภาษาถิ่น หรือสภาพแวดล้อมที่มีเสียงดัง

!

เสียงสังเคราะห์อาจถูกเข้าใจผิดว่าเป็นเสียงพูดที่แท้จริงโดยไม่มีการกำกับที่ชัดเจน

แผนงานการดำเนินงาน

1

ได้รับความยินยอมอย่างชัดแจ้งสำหรับการจับเสียง การโคลน และการใช้ซ้ำ

ได้รับความยินยอมอย่างชัดแจ้งสำหรับการจับเสียง การโคลน และการใช้ซ้ำ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบคุณภาพกับลำโพงและสภาพพื้นหลังที่หลากหลาย

ทดสอบคุณภาพกับลำโพงและสภาพพื้นหลังที่หลากหลาย ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

กำหนดเวลาที่มนุษย์จะต้องตรวจสอบหรืออนุมัติผลลัพธ์

กำหนดเวลาที่มนุษย์จะต้องตรวจสอบหรืออนุมัติผลลัพธ์ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดป้ายกำกับเสียงสังเคราะห์และเก็บบันทึกที่มาเพื่อความรับผิดชอบ

ติดป้ายกำกับเสียงสังเคราะห์และเก็บบันทึกที่มาเพื่อความรับผิดชอบ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป