คู่มือ AI แบบเห็นภาพ

การสูญเสียการรับรู้และ LPIPS

การสูญเสียการรับรู้จะวัดว่าภาพสองภาพมีความคล้ายคลึงกันในมนุษย์อย่างไรโดยการเปรียบเทียบคุณลักษณะโครงข่ายประสาทเทียมระดับลึกแทนที่จะเป็นพิกเซลดิบ

ภาพรวม

การสูญเสียการรับรู้จะวัดว่าภาพสองภาพมีความคล้ายคลึงกันในมนุษย์อย่างไรโดยการเปรียบเทียบคุณลักษณะโครงข่ายประสาทเทียมระดับลึกแทนที่จะเป็นพิกเซลดิบ สิ่งสำคัญคือเนื่องจากการเปรียบเทียบแบบพิกเซลต่อพิกเซลจะลงโทษการเปลี่ยนแปลงเล็กๆ น้อยๆ และทำให้รายละเอียดพร่ามัว ในขณะที่การสูญเสียการรับรู้จะให้ผลลัพธ์ที่คมชัดและสมจริง

การสูญเสียการรับรู้และ LPIPS เป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์

เจาะลึก

การสูญเสียแบบดั้งเดิม เช่น L2 (ค่าคลาดเคลื่อนกำลังสองเฉลี่ย) จะเปรียบเทียบภาพแบบพิกเซลต่อพิกเซล ดังนั้นการเปลี่ยนแปลงหนึ่งพิกเซลหรือพื้นผิวที่แตกต่างกันเล็กน้อยจึงดูเหมือนเป็นข้อผิดพลาดครั้งใหญ่ แม้ว่ามนุษย์แทบจะไม่สังเกตเห็นก็ตาม การสูญเสียการรับรู้จะเรียกใช้ทั้งสองอิมเมจผ่านเครือข่ายที่ได้รับการฝึกล่วงหน้า (มักจะเป็น VGG) และเปรียบเทียบการเปิดใช้งานจากเลเยอร์ระดับกลาง เนื่องจากคุณสมบัติเหล่านั้นเข้ารหัสขอบ พื้นผิว และส่วนของวัตถุมากกว่าค่าพิกเซลที่แน่นอน การสูญเสียจึงสอดคล้องกับวิจารณญาณของมนุษย์ได้ดีขึ้น ช่วยให้ได้ผลลัพธ์ที่คมชัดและตรงตามความหมาย LPIPS (Learned Perceptual Image Patchคล้ายคลึงกัน) นำเสนอโดย Zhang และคณะ ในปี 2018 ได้กำหนดสิ่งนี้อย่างเป็นทางการ โดยแยกคุณลักษณะเชิงลึก ทำให้เป็นมาตรฐาน และใช้ตุ้มน้ำหนักที่เรียนรู้ซึ่งเทียบเคียงกับการตัดสินความคล้ายคลึงกันของมนุษย์นับพันครั้ง โดยสร้างคะแนนระยะทางเดียวโดยที่ต่ำกว่าหมายถึงมีความเหมือนกันมากกว่าในการรับรู้

ข้อมูลเชิงลึกทางเทคนิค

LPIPS ส่งภาพทั้งสองผ่านแบ็คโบนคงที่ (VGG, AlexNet หรือ SqueezeNet) ยูนิตจะปรับการเปิดใช้งานช่องสัญญาณให้เป็นมาตรฐานในหลายเลเยอร์ จากนั้นนำผลต่างกำลังสองที่ตำแหน่งเชิงพื้นที่แต่ละตำแหน่ง น้ำหนักต่อช่องที่เรียนรู้ชุดเล็กๆ จะปรับขนาดความแตกต่างเหล่านั้นก่อนที่จะหาค่าเฉลี่ยเชิงพื้นที่และรวมข้ามเลเยอร์ น้ำหนักเหล่านั้นได้รับการฝึกอบรมในชุดข้อมูล BAPPS ของการตัดสินแบบบังคับทางเลือกสองทางของมนุษย์ ดังนั้นหน่วยเมตริกจึงสะท้อนถึงสิ่งที่ผู้คนรับรู้จริง ๆ แทนที่จะเป็นระยะทางดิบ

การเรียนรู้การสูญเสียการรับรู้และ LPIPS

การสูญเสียการรับรู้จะวัดว่าภาพสองภาพมีความคล้ายคลึงกันในมนุษย์อย่างไรโดยการเปรียบเทียบคุณลักษณะโครงข่ายประสาทเทียมระดับลึกแทนที่จะเป็นพิกเซลดิบ สิ่งสำคัญคือเนื่องจากการเปรียบเทียบแบบพิกเซลต่อพิกเซลจะลงโทษการเปลี่ยนแปลงเล็กๆ น้อยๆ และทำให้รายละเอียดพร่ามัว ในขณะที่การสูญเสียการรับรู้จะให้ผลลัพธ์ที่คมชัดและสมจริง การสูญเสียการรับรู้และ LPIPS เป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์ เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่าการสูญเสียการรับรู้และ LPIPS เป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Perceptual Loss และ LPIPS จะรักษาสมดุลระหว่างความแม่นยำกับความเป็นจริงในการปฏิบัติงาน เช่น คุณภาพของข้อมูล ความแปรปรวนของแสง และความสม่ำเสมอในการติดฉลาก โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในขณะเดียวกัน สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการสูญเสียการรับรู้และ LPIPS

ตัวชี้วัดการรับรู้กำลังเปลี่ยนจากแกนหลักของ CNN ไปสู่คุณสมบัติจากโมเดลที่ควบคุมตนเองและตัวแปลงการมองเห็น เช่น DINO และ CLIP ซึ่งจับความหมายที่สมบูรณ์ยิ่งขึ้น คาดหวังการผสานรวมที่เข้มงวดยิ่งขึ้นกับการฝึกอบรมโมเดลการแพร่กระจายและการประเมินข้อความเป็นรูปภาพ รวมถึงคะแนนการรับรู้ที่ปรับแต่งเพื่อความสอดคล้องชั่วคราวของวิดีโอ นักวิจัยยังกำลังตรวจสอบจุดบอดของ LPIPS อีกด้วย กล่าวคือ มันสามารถถูกหลอกได้ในทางตรงข้ามและมีความสัมพันธ์กับคุณภาพที่มีความเที่ยงตรงสูงมาก กระตุ้นให้เกิดตัวชี้วัดใหม่ที่สอดคล้องกับมนุษย์ เช่น DISTS และแนวทางการรวมกลุ่ม

การใช้งานจริงในโลกแห่งความเป็นจริง

การฝึกอบรมเครือข่ายความละเอียดสูงพิเศษ (เช่น SRGAN) เพื่อให้ภาพที่ขยายขนาดดูคมชัดและมีพื้นผิวมากกว่าที่จะเบลอ

การประเมินการบีบอัดภาพและตัวแปลงสัญญาณโดยการให้คะแนนว่าภาพที่ถอดรหัสปิดไปจากต้นฉบับอย่างไร

การถ่ายโอนรูปแบบการนำทาง โดยที่เนื้อหาจะถูกจับคู่ผ่านฟีเจอร์ VGG แบบลึก แทนที่จะเป็นพิกเซลที่ตรงทั้งหมด

การเปรียบเทียบ GAN และเครื่องสร้างภาพการแพร่กระจายโดยการรายงานระยะห่าง LPIPS ระหว่างภาพที่สร้างขึ้นและภาพจริง

รูปแบบการดำเนินงาน

การสูญเสียการรับรู้และ LPIPS ในทางปฏิบัติ

การฝึกอบรมเครือข่ายความละเอียดสูงพิเศษ (เช่น SRGAN) เพื่อให้ภาพที่ขยายขนาดดูคมชัดและมีพื้นผิวมากกว่าที่จะเบลอ

การฝึกอบรมเครือข่ายที่มีความละเอียดสูงสุด (เช่น SRGAN) เพื่อให้ภาพถ่ายที่ได้รับการอัปสเกลดูคมชัดและมีพื้นผิว แทนที่จะเบลอ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การสูญเสียการรับรู้และ LPIPS ในทางปฏิบัติ

การประเมินการบีบอัดภาพและตัวแปลงสัญญาณโดยการให้คะแนนว่าภาพที่ถอดรหัสปิดไปจากต้นฉบับอย่างไร

การประเมินการบีบอัดรูปภาพและตัวแปลงสัญญาณโดยการให้คะแนนว่าภาพที่ถอดรหัสนั้นปิดจากภาพต้นฉบับมากน้อยเพียงใด โดยปกติแล้วทีมจะได้ผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การสูญเสียการรับรู้และ LPIPS ในทางปฏิบัติ

การถ่ายโอนรูปแบบการนำทาง โดยที่เนื้อหาจะถูกจับคู่ผ่านฟีเจอร์ VGG แบบลึก แทนที่จะเป็นพิกเซลที่ตรงทั้งหมด

การถ่ายโอนรูปแบบการนำทาง โดยที่เนื้อหาจะถูกจับคู่ผ่านคุณสมบัติ VGG แบบลึกแทนที่จะเป็นพิกเซลที่แน่นอน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การสูญเสียการรับรู้และ LPIPS ในทางปฏิบัติ

การเปรียบเทียบ GAN และเครื่องสร้างภาพการแพร่กระจายโดยการรายงานระยะห่าง LPIPS ระหว่างภาพที่สร้างขึ้นและภาพจริง

การเปรียบเทียบ GAN และเครื่องสร้างภาพแบบกระจายโดยการรายงานระยะห่าง LPIPS ระหว่างภาพที่สร้างขึ้นและภาพจริง ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน

!

ประสิทธิภาพของโมเดลอาจแตกต่างกันไปตามสภาพแสง ข้อมูลประชากร และสภาพแวดล้อม

!

ผลบวกลวงอาจไม่สังเกตเห็นเว้นแต่จะมีการตรวจสอบเกณฑ์ความเชื่อมั่น

แผนงานการดำเนินงาน

1

กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด

กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง

ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง

เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล

ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป