ภาพรวม
การสูญเสียการรับรู้จะวัดว่าภาพสองภาพมีความคล้ายคลึงกันในมนุษย์อย่างไรโดยการเปรียบเทียบคุณลักษณะโครงข่ายประสาทเทียมระดับลึกแทนที่จะเป็นพิกเซลดิบ สิ่งสำคัญคือเนื่องจากการเปรียบเทียบแบบพิกเซลต่อพิกเซลจะลงโทษการเปลี่ยนแปลงเล็กๆ น้อยๆ และทำให้รายละเอียดพร่ามัว ในขณะที่การสูญเสียการรับรู้จะให้ผลลัพธ์ที่คมชัดและสมจริง
การสูญเสียการรับรู้และ LPIPS เป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์
เจาะลึก
การสูญเสียแบบดั้งเดิม เช่น L2 (ค่าคลาดเคลื่อนกำลังสองเฉลี่ย) จะเปรียบเทียบภาพแบบพิกเซลต่อพิกเซล ดังนั้นการเปลี่ยนแปลงหนึ่งพิกเซลหรือพื้นผิวที่แตกต่างกันเล็กน้อยจึงดูเหมือนเป็นข้อผิดพลาดครั้งใหญ่ แม้ว่ามนุษย์แทบจะไม่สังเกตเห็นก็ตาม การสูญเสียการรับรู้จะเรียกใช้ทั้งสองอิมเมจผ่านเครือข่ายที่ได้รับการฝึกล่วงหน้า (มักจะเป็น VGG) และเปรียบเทียบการเปิดใช้งานจากเลเยอร์ระดับกลาง เนื่องจากคุณสมบัติเหล่านั้นเข้ารหัสขอบ พื้นผิว และส่วนของวัตถุมากกว่าค่าพิกเซลที่แน่นอน การสูญเสียจึงสอดคล้องกับวิจารณญาณของมนุษย์ได้ดีขึ้น ช่วยให้ได้ผลลัพธ์ที่คมชัดและตรงตามความหมาย LPIPS (Learned Perceptual Image Patchคล้ายคลึงกัน) นำเสนอโดย Zhang และคณะ ในปี 2018 ได้กำหนดสิ่งนี้อย่างเป็นทางการ โดยแยกคุณลักษณะเชิงลึก ทำให้เป็นมาตรฐาน และใช้ตุ้มน้ำหนักที่เรียนรู้ซึ่งเทียบเคียงกับการตัดสินความคล้ายคลึงกันของมนุษย์นับพันครั้ง โดยสร้างคะแนนระยะทางเดียวโดยที่ต่ำกว่าหมายถึงมีความเหมือนกันมากกว่าในการรับรู้
ข้อมูลเชิงลึกทางเทคนิค
LPIPS ส่งภาพทั้งสองผ่านแบ็คโบนคงที่ (VGG, AlexNet หรือ SqueezeNet) ยูนิตจะปรับการเปิดใช้งานช่องสัญญาณให้เป็นมาตรฐานในหลายเลเยอร์ จากนั้นนำผลต่างกำลังสองที่ตำแหน่งเชิงพื้นที่แต่ละตำแหน่ง น้ำหนักต่อช่องที่เรียนรู้ชุดเล็กๆ จะปรับขนาดความแตกต่างเหล่านั้นก่อนที่จะหาค่าเฉลี่ยเชิงพื้นที่และรวมข้ามเลเยอร์ น้ำหนักเหล่านั้นได้รับการฝึกอบรมในชุดข้อมูล BAPPS ของการตัดสินแบบบังคับทางเลือกสองทางของมนุษย์ ดังนั้นหน่วยเมตริกจึงสะท้อนถึงสิ่งที่ผู้คนรับรู้จริง ๆ แทนที่จะเป็นระยะทางดิบ
การเรียนรู้การสูญเสียการรับรู้และ LPIPS
การสูญเสียการรับรู้จะวัดว่าภาพสองภาพมีความคล้ายคลึงกันในมนุษย์อย่างไรโดยการเปรียบเทียบคุณลักษณะโครงข่ายประสาทเทียมระดับลึกแทนที่จะเป็นพิกเซลดิบ สิ่งสำคัญคือเนื่องจากการเปรียบเทียบแบบพิกเซลต่อพิกเซลจะลงโทษการเปลี่ยนแปลงเล็กๆ น้อยๆ และทำให้รายละเอียดพร่ามัว ในขณะที่การสูญเสียการรับรู้จะให้ผลลัพธ์ที่คมชัดและสมจริง การสูญเสียการรับรู้และ LPIPS เป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์ เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่าการสูญเสียการรับรู้และ LPIPS เป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ
ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Perceptual Loss และ LPIPS จะรักษาสมดุลระหว่างความแม่นยำกับความเป็นจริงในการปฏิบัติงาน เช่น คุณภาพของข้อมูล ความแปรปรวนของแสง และความสม่ำเสมอในการติดฉลาก โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน
Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในขณะเดียวกัน สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง
ผลกระทบเชิงกลยุทธ์
Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ
Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง
ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก
การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
การใช้งานจริงในโลกแห่งความเป็นจริง
การฝึกอบรมเครือข่ายความละเอียดสูงพิเศษ (เช่น SRGAN) เพื่อให้ภาพที่ขยายขนาดดูคมชัดและมีพื้นผิวมากกว่าที่จะเบลอ
การประเมินการบีบอัดภาพและตัวแปลงสัญญาณโดยการให้คะแนนว่าภาพที่ถอดรหัสปิดไปจากต้นฉบับอย่างไร
การถ่ายโอนรูปแบบการนำทาง โดยที่เนื้อหาจะถูกจับคู่ผ่านฟีเจอร์ VGG แบบลึก แทนที่จะเป็นพิกเซลที่ตรงทั้งหมด
การเปรียบเทียบ GAN และเครื่องสร้างภาพการแพร่กระจายโดยการรายงานระยะห่าง LPIPS ระหว่างภาพที่สร้างขึ้นและภาพจริง
รูปแบบการดำเนินงาน
การสูญเสียการรับรู้และ LPIPS ในทางปฏิบัติ
การฝึกอบรมเครือข่ายความละเอียดสูงพิเศษ (เช่น SRGAN) เพื่อให้ภาพที่ขยายขนาดดูคมชัดและมีพื้นผิวมากกว่าที่จะเบลอ
การฝึกอบรมเครือข่ายที่มีความละเอียดสูงสุด (เช่น SRGAN) เพื่อให้ภาพถ่ายที่ได้รับการอัปสเกลดูคมชัดและมีพื้นผิว แทนที่จะเบลอ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
การสูญเสียการรับรู้และ LPIPS ในทางปฏิบัติ
การประเมินการบีบอัดภาพและตัวแปลงสัญญาณโดยการให้คะแนนว่าภาพที่ถอดรหัสปิดไปจากต้นฉบับอย่างไร
การประเมินการบีบอัดรูปภาพและตัวแปลงสัญญาณโดยการให้คะแนนว่าภาพที่ถอดรหัสนั้นปิดจากภาพต้นฉบับมากน้อยเพียงใด โดยปกติแล้วทีมจะได้ผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
การสูญเสียการรับรู้และ LPIPS ในทางปฏิบัติ
การถ่ายโอนรูปแบบการนำทาง โดยที่เนื้อหาจะถูกจับคู่ผ่านฟีเจอร์ VGG แบบลึก แทนที่จะเป็นพิกเซลที่ตรงทั้งหมด
การถ่ายโอนรูปแบบการนำทาง โดยที่เนื้อหาจะถูกจับคู่ผ่านคุณสมบัติ VGG แบบลึกแทนที่จะเป็นพิกเซลที่แน่นอน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
การสูญเสียการรับรู้และ LPIPS ในทางปฏิบัติ
การเปรียบเทียบ GAN และเครื่องสร้างภาพการแพร่กระจายโดยการรายงานระยะห่าง LPIPS ระหว่างภาพที่สร้างขึ้นและภาพจริง
การเปรียบเทียบ GAN และเครื่องสร้างภาพแบบกระจายโดยการรายงานระยะห่าง LPIPS ระหว่างภาพที่สร้างขึ้นและภาพจริง ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
ความเสี่ยงและรั้ว
สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน
ประสิทธิภาพของโมเดลอาจแตกต่างกันไปตามสภาพแสง ข้อมูลประชากร และสภาพแวดล้อม
ผลบวกลวงอาจไม่สังเกตเห็นเว้นแต่จะมีการตรวจสอบเกณฑ์ความเชื่อมั่น
แผนงานการดำเนินงาน
กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด
กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง
ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง
เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล
ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น