คู่มือ AI แบบเห็นภาพ

CycleGAN การแปลแบบไม่จับคู่

CycleGAN เรียนรู้ที่จะแปลรูปภาพระหว่างโดเมนภาพสองโดเมน (เช่น ม้าเป็นม้าลาย หรือภาพถ่ายเป็นภาพวาด) โดยไม่จำเป็นต้องจับคู่ตัวอย่างก่อนและหลังที่ตรงกัน

ภาพรวม

CycleGAN เรียนรู้ที่จะแปลรูปภาพระหว่างโดเมนภาพสองโดเมน (เช่น ม้าเป็นม้าลาย หรือภาพถ่ายเป็นภาพวาด) โดยไม่จำเป็นต้องจับคู่ตัวอย่างก่อนและหลังที่ตรงกัน เป็นเรื่องสำคัญเนื่องจากการรวบรวมข้อมูลการฝึกแบบจับคู่มักเป็นไปไม่ได้ และ CycleGAN จะปลดล็อกการถ่ายโอนรูปแบบสำหรับชุดข้อมูลในโลกแห่งความเป็นจริงที่ยุ่งเหยิง

CycleGAN Unpaired Translation เป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์

เจาะลึก

CycleGAN เปิดตัวในปี 2560 โดย Zhu, Park, Isola และ Efros โดยจัดการกับการแปลรูปภาพเป็นรูปภาพแบบไม่จับคู่ วิธีการก่อนหน้านี้ส่วนใหญ่ (เช่น pix2pix) จำเป็นต้องใช้คู่ที่ตรงกัน นั่นคือ ฉากเดียวกันกับภาพถ่ายและภาพร่าง CycleGAN ลบข้อกำหนดดังกล่าวโดยใช้ตัวสร้างสองตัว (G แปลงโดเมน A เป็น B, F แปลง B กลับเป็น A) และตัวแบ่งแยกสองตัวที่ตัดสินความสมจริงในแต่ละโดเมน ความก้าวหน้าประการหนึ่งคือการสูญเสียความสม่ำเสมอของวงจร: หากคุณแปลภาพถ่ายม้าเป็นม้าลายแล้วแปลกลับ คุณควรกู้คืนม้าตัวเดิม ข้อจำกัดนี้จะหยุดตัวสร้างจากการประดิษฐ์เอาต์พุตตามอำเภอใจ และบังคับใช้การแมปที่มีความหมายและรักษาเนื้อหา โดยมีชื่อเสียงโด่งดังในการเปลี่ยนทิวทัศน์ในฤดูร้อนให้เป็นฤดูหนาว ภาพวาดของ Monet เป็นภาพถ่าย และแอปเปิ้ลเป็นส้ม ทั้งหมดนี้เรียนรู้จากกองรูปภาพสองกองที่ไม่เกี่ยวข้องกัน

ข้อมูลเชิงลึกทางเทคนิค

CycleGAN รวมการสูญเสียฝ่ายตรงข้ามเข้ากับการสูญเสียความสม่ำเสมอของวงจร โปรแกรมสร้างแต่ละเครื่องต้องเผชิญกับการเลือกปฏิบัติของ PatchGAN ที่จัดประเภทแพทช์ภาพที่ทับซ้อนกันว่าเป็นของจริงหรือของปลอม แทนที่จะตัดสินทั้งภาพ การสูญเสียของวงจรบังคับใช้ F(G(x)) ประมาณ x และ G(F(y)) ประมาณ y โดยใช้ค่าปรับการสร้าง L1 ใหม่ การสูญเสียข้อมูลระบุตัวตนที่เป็นตัวเลือกจะรักษาสีไว้เมื่อรูปภาพเป็นของโดเมนเป้าหมายแล้ว เครื่องกำเนิดไฟฟ้าทั้งสองเครื่องฝึกพร้อมกัน โดยเรียนรู้การแมปผกผันที่ทำให้โครงสร้างไม่เสียหาย

การเรียนรู้ CycleGAN การแปลแบบไม่มีคู่

CycleGAN เรียนรู้ที่จะแปลรูปภาพระหว่างโดเมนภาพสองโดเมน (เช่น ม้าเป็นม้าลาย หรือภาพถ่ายเป็นภาพวาด) โดยไม่จำเป็นต้องจับคู่ตัวอย่างก่อนและหลังที่ตรงกัน เป็นเรื่องสำคัญเนื่องจากการรวบรวมข้อมูลการฝึกแบบจับคู่มักเป็นไปไม่ได้ และ CycleGAN จะปลดล็อกการถ่ายโอนรูปแบบสำหรับชุดข้อมูลในโลกแห่งความเป็นจริงที่ยุ่งเหยิง CycleGAN Unpaired Translation เป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์ เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า CycleGAN Unpaired Translation เป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ CycleGAN Unpaired Translation จะรักษาสมดุลระหว่างความแม่นยำกับความเป็นจริงในการปฏิบัติงาน เช่น คุณภาพของข้อมูล ความแปรปรวนของแสง และความสม่ำเสมอในการติดฉลาก โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในขณะเดียวกัน สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการแปลแบบไม่มีคู่ของ CycleGAN

แนวคิดหลักของ CycleGAN คือความสม่ำเสมอของวงจร ยังคงอยู่ในงานแปลแบบ unpaired สมัยใหม่ รวมถึงวิธีการแบบแพร่กระจายที่สลับแบ็คโบน GAN เพื่อลดสัญญาณรบกวนโมเดลด้วยเอาต์พุตที่คมชัดและหลากหลายมากขึ้น ขณะนี้นักวิจัยใช้การแปลแบบไม่มีคู่กับการถ่ายภาพทางการแพทย์ (การสังเคราะห์รังสีสแกน) การปรับโดเมนสำหรับการถ่ายโอนการจำลองการขับขี่ด้วยตนเองสู่จริง และการเพิ่มข้อมูล คาดว่าจะมีการควบคุมที่เข้มงวดยิ่งขึ้นสำหรับสิ่งที่เปลี่ยนแปลงเทียบกับสิ่งที่ยังคงอยู่ รวมถึงแนวทางแบบไฮบริดที่ผสมผสานข้อจำกัดของวงจรเข้ากับการแก้ไขการแพร่กระจายที่มีเงื่อนไขด้วยข้อความ

การใช้งานจริงในโลกแห่งความเป็นจริง

เปลี่ยนภาพถ่ายให้เป็นสไตล์การวาดภาพของ Monet, Van Gogh หรือ Cezanne โดยไม่ต้องมีตัวอย่างการวาดภาพคู่กัน

แปลงภาพถ่ายทิวทัศน์ฤดูร้อนให้เป็นฉากฤดูหนาว (และในทางกลับกัน) เพื่อสร้างเนื้อหาภาพยนตร์และเกม

การแปลการสแกน MRI เป็นภาพที่เหมือน CT ในการวิจัยทางการแพทย์ ซึ่งไม่สามารถจับคู่การสแกนผู้ป่วยได้

การปรับฟุตเทจจำลองการขับขี่แบบสังเคราะห์เพื่อให้ดูสมจริงสำหรับการฝึกการรับรู้ของยานพาหนะอัตโนมัติ

รูปแบบการดำเนินงาน

การแปล CycleGAN Unpaired ในทางปฏิบัติ

เปลี่ยนภาพถ่ายให้เป็นรูปแบบการวาดภาพของ Monet, Van Gogh หรือ Cezanne โดยไม่ต้องมีตัวอย่างการวาดภาพคู่กัน

การเปลี่ยนภาพถ่ายให้เป็นสไตล์การวาดภาพของ Monet, Van Gogh หรือ Cezanne โดยไม่มีตัวอย่างการวาดภาพภาพถ่ายคู่กัน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การแปล CycleGAN Unpaired ในทางปฏิบัติ

แปลงภาพถ่ายทิวทัศน์ฤดูร้อนให้เป็นฉากฤดูหนาว (และในทางกลับกัน) เพื่อสร้างเนื้อหาภาพยนตร์และเกม

การแปลงภาพถ่ายทิวทัศน์ฤดูร้อนเป็นฉากฤดูหนาว (และในทางกลับกัน) สำหรับการสร้างเนื้อหาภาพยนตร์และเกม ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การแปล CycleGAN Unpaired ในทางปฏิบัติ

การแปลการสแกน MRI เป็นภาพที่เหมือน CT ในการวิจัยทางการแพทย์ ซึ่งไม่สามารถจับคู่การสแกนผู้ป่วยได้

การแปลการสแกน MRI เป็นภาพที่เหมือน CT ในการวิจัยทางการแพทย์โดยที่การสแกนผู้ป่วยแบบจับคู่ไม่พร้อมใช้งาน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การแปล CycleGAN Unpaired ในทางปฏิบัติ

การปรับฟุตเทจจำลองการขับขี่แบบสังเคราะห์เพื่อให้ดูสมจริงสำหรับการฝึกการรับรู้ของยานพาหนะอัตโนมัติ

การปรับฟุตเทจจำลองการขับขี่แบบสังเคราะห์ให้ดูสมจริงสำหรับการฝึกอบรมการรับรู้ของยานพาหนะอัตโนมัติ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน

!

ประสิทธิภาพของโมเดลอาจแตกต่างกันไปตามสภาพแสง ข้อมูลประชากร และสภาพแวดล้อม

!

ผลบวกลวงอาจไม่สังเกตเห็นเว้นแต่จะมีการตรวจสอบเกณฑ์ความเชื่อมั่น

แผนงานการดำเนินงาน

1

กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด

กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง

ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง

เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล

ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป