คู่มือ AI แบบเห็นภาพ

ESRGAN และ GAN สุดยอดความละเอียด

ESRGAN ใช้การแข่งขันระหว่างเครื่องกำเนิดไฟฟ้ากับการเลือกปฏิบัติเพื่อสร้างรายละเอียดที่สมจริงเมื่อขยายขนาดภาพ นอกเหนือไปจากการแก้ไขที่พร่ามัว

ภาพรวม

ESRGAN ใช้การแข่งขันระหว่างเครื่องกำเนิดไฟฟ้ากับการเลือกปฏิบัติเพื่อสร้างรายละเอียดที่สมจริงเมื่อขยายขนาดภาพ นอกเหนือไปจากการแก้ไขที่พร่ามัว สิ่งสำคัญเนื่องจากเป็นการตั้งค่าเทมเพลตสำหรับความละเอียดระดับสูงที่สมจริงของภาพถ่ายซึ่งยังคงมีอิทธิพลต่อเครื่องมือในปัจจุบัน

ESRGAN และ GAN Super-Resolution เป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์

เจาะลึก

ESRGAN (Enhanced Super-Resolution Generative Adversarial Network) ที่เปิดตัวในปี 2018 ได้รับการปรับปรุงจาก SRGAN รุ่นก่อนหน้า ใช้ตัวสร้างที่สร้างขึ้นจาก Residual-in-Residual Dense Blocks (RRDB) ที่ซ้อนการเชื่อมต่อหนาแน่นจำนวนมากโดยไม่มีการทำให้เป็นมาตรฐานแบบแบตช์ ซึ่งผู้เขียนพบว่าทำให้เกิดสิ่งประดิษฐ์ เครือข่ายผู้แยกแยะที่แยกจากกันพยายามที่จะบอกเล่าภาพถ่ายที่มีความละเอียดสูงจริงจากภาพถ่ายที่สร้างขึ้น โดยผลักดันให้เครื่องกำเนิดภาพหลอนประสาททำให้พื้นผิวดูน่าเชื่อ เช่น ผม อิฐ และใบไม้ ESRGAN รวมการสูญเสียสามประการ: การสูญเสียเนื้อหาแบบพิกเซล การสูญเสียการรับรู้ที่วัดได้บนแผนที่ฟีเจอร์ VGG ก่อนการเปิดใช้งาน และการสูญเสียฝ่ายตรงข้าม นอกจากนี้ ยังแนะนำการเลือกปฏิบัติแบบ 'เชิงสัมพัทธภาพ' ที่จะตัดสินว่าภาพจริงดูสมจริงมากกว่าภาพปลอมหรือไม่ ซึ่งเป็นการฝึกฝนให้คมชัดยิ่งขึ้น ESRGAN ชนะการแข่งขันที่มีความละเอียดสูงสุดในการรับรู้ของ PIRM ปี 2018

ข้อมูลเชิงลึกทางเทคนิค

แนวคิดหลักคือการแลกเปลี่ยนความแม่นยำของพิกเซลเพื่อความสมจริงในการรับรู้ การสูญเสียพิกเซลเช่นค่าเฉลี่ย MSE บนพื้นผิวที่เป็นไปได้ ทำให้ได้ผลลัพธ์ที่ราบรื่นและพร่ามัว การสูญเสียฝ่ายตรงข้ามกลับบังคับให้ส่งออกไปยังรูปภาพที่ดูสมจริงมากมาย ดังนั้นตัวสร้างจึงเลือกใช้พื้นผิวที่คมชัดและเป็นไปได้ เครื่องมือแยกแยะโดยเฉลี่ยเชิงสัมพันธ์ของ ESRGAN ประเมินว่าแพตช์จริงมีความสมจริงมากกว่าแพตช์ปลอมมากเพียงใด ซึ่งถ่ายโอนข้อมูลการไล่ระดับสีได้มากกว่า และสร้างขอบที่คมชัดกว่าแพตช์มาตรฐาน

การเรียนรู้ ESRGAN และ GAN Super-Resolution

ESRGAN ใช้การแข่งขันระหว่างเครื่องกำเนิดไฟฟ้ากับการเลือกปฏิบัติเพื่อสร้างรายละเอียดที่สมจริงเมื่อขยายขนาดภาพ นอกเหนือไปจากการแก้ไขที่พร่ามัว สิ่งสำคัญเนื่องจากเป็นการตั้งค่าเทมเพลตสำหรับความละเอียดระดับสูงที่สมจริงของภาพถ่ายซึ่งยังคงมีอิทธิพลต่อเครื่องมือในปัจจุบัน ESRGAN และ GAN Super-Resolution เป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์ หากต้องการสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า ESRGAN และ GAN Super-Resolution เป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ ESRGAN และ GAN Super-Resolution จะรักษาสมดุลระหว่างความแม่นยำกับความเป็นจริงในการปฏิบัติงาน เช่น คุณภาพของข้อมูล ความแปรปรวนของแสง และความสม่ำเสมอในการติดฉลาก โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในขณะเดียวกัน สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของ ESRGAN และ GAN Super-Resolution

ความละเอียดระดับสูงของ GAN บริสุทธิ์ถูกผสมผสานหรือแทนที่มากขึ้นด้วยแบ็คโบนของหม้อแปลงและตัวขยายสเกลเลอร์แบบกระจายที่ให้การฝึกฝนที่เสถียรยิ่งขึ้นและการควบคุมที่ละเอียดยิ่งขึ้น ถึงกระนั้น ตัวสร้าง RRDB ของ ESRGAN และสูตรการรับรู้บวกศัตรูยังคงเป็นพื้นฐานที่แข็งแกร่งและมีน้ำหนักเบาซึ่งฝังอยู่ในม็อดพื้นผิวเกมและเครื่องมือรูปภาพจำนวนนับไม่ถ้วน คาดหวังรุ่นไฮบริดที่จะรักษาความคมชัดของ GAN ในขณะที่ยืมความหลากหลายของการแพร่กระจายและบริบทระยะไกลของหม้อแปลง และการปรับใช้บนอุปกรณ์ที่เข้มงวดมากขึ้นสำหรับการลดขนาดแบบเรียลไทม์

การใช้งานจริงในโลกแห่งความเป็นจริง

การเพิ่มขนาดพื้นผิวความละเอียดต่ำในม็อดวิดีโอเกม (เป็นที่นิยมในชุมชนม็อด 'AI Upscale' สำหรับเกมพีซีรุ่นเก่า)

ปรับปรุงภาพถ่ายครอบครัวเก่าหรือภาพที่สแกนก่อนพิมพ์ในขนาดที่ใหญ่ขึ้น

การปรับปรุงภาพนิ่งที่ดึงมาจากเอกสารสำคัญหรือภาพวงจรปิดที่มีความละเอียดต่ำ

การสร้างแผนที่พื้นผิวที่มีความละเอียดสูงสำหรับศิลปิน 3 มิติที่ทำงานจากภาพอ้างอิงขนาดเล็ก

รูปแบบการดำเนินงาน

ESRGAN และ GAN Super-Resolution ในทางปฏิบัติ

การเพิ่มขนาดพื้นผิวความละเอียดต่ำในม็อดวิดีโอเกม (เป็นที่นิยมในชุมชนม็อด 'AI Upscale' สำหรับเกมพีซีรุ่นเก่า)

การเพิ่มสเกลพื้นผิวความละเอียดต่ำในม็อดวิดีโอเกม (ซึ่งเป็นที่นิยมในชุมชนม็อด 'AI Upscale' สำหรับเกมพีซีรุ่นเก่า) ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ESRGAN และ GAN Super-Resolution ในทางปฏิบัติ

ปรับปรุงภาพถ่ายครอบครัวเก่าหรือภาพที่สแกนก่อนพิมพ์ในขนาดที่ใหญ่ขึ้น

การปรับปรุงรูปถ่ายครอบครัวเก่าหรือรูปภาพที่สแกนก่อนพิมพ์ในขนาดที่ใหญ่ขึ้น ทีมมักจะได้ผลลัพธ์ที่ดีกว่าเมื่อกำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ESRGAN และ GAN Super-Resolution ในทางปฏิบัติ

การปรับปรุงภาพนิ่งที่ดึงมาจากเอกสารสำคัญหรือภาพวงจรปิดที่มีความละเอียดต่ำ

การปรับปรุงภาพนิ่งที่ดึงมาจากการเก็บถาวรที่มีความละเอียดต่ำหรือฟุตเทจการเฝ้าระวัง โดยปกติแล้วทีมจะได้ผลลัพธ์ที่ดีขึ้น เมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ESRGAN และ GAN Super-Resolution ในทางปฏิบัติ

การสร้างแผนที่พื้นผิวที่มีความละเอียดสูงสำหรับศิลปิน 3 มิติที่ทำงานจากภาพอ้างอิงขนาดเล็ก

การสร้างแผนที่พื้นผิวความละเอียดสูงสำหรับศิลปิน 3D ที่ทำงานจากรูปภาพอ้างอิงขนาดเล็ก ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน

!

ประสิทธิภาพของโมเดลอาจแตกต่างกันไปตามสภาพแสง ข้อมูลประชากร และสภาพแวดล้อม

!

ผลบวกลวงอาจไม่สังเกตเห็นเว้นแต่จะมีการตรวจสอบเกณฑ์ความเชื่อมั่น

แผนงานการดำเนินงาน

1

กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด

กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง

ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง

เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล

ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป