คู่มือ AI แบบเห็นภาพ

สถาปัตยกรรม StyleGAN

StyleGAN เป็นเครือข่ายปฏิปักษ์ที่สร้างจาก NVIDIA ที่สร้างใบหน้าและวัตถุที่สมจริงอย่างน่าทึ่งโดยการฉีดข้อมูลสไตล์ในทุกเลเยอร์

ภาพรวม

StyleGAN เป็นเครือข่ายปฏิปักษ์ที่สร้างจาก NVIDIA ที่สร้างใบหน้าและวัตถุที่สมจริงอย่างน่าทึ่งโดยการฉีดข้อมูลสไตล์ในทุกเลเยอร์ สิ่งสำคัญคือเนื่องจากการออกแบบให้การควบคุมคุณลักษณะของภาพที่หยาบและละเอียดอย่างที่ไม่เคยมีมาก่อนและไม่พันกัน

สถาปัตยกรรม StyleGAN เป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์

เจาะลึก

StyleGAN แนะนำโดย Karras และคณะ ในปี 2018 ได้ออกแบบตัวสร้าง GAN ใหม่ตามแนวคิดเรื่อง 'สไตล์' แทนที่จะป้อนเวกเตอร์แบบสุ่มเข้าไปในเครือข่ายโดยตรง ก่อนอื่นจะแมปโค้ดแฝง z ผ่าน MLP 8 เลเยอร์ลงในพื้นที่ตรงกลาง W ซึ่งจะแยกปัจจัยของการแปรผันออก จากนั้นเทนเซอร์คงที่ที่เรียนรู้จะถูกอัปสุ่มตัวอย่างอย่างต่อเนื่อง และในแต่ละความละเอียด เวกเตอร์สไตล์จะปรับเปลี่ยนแผนผังฟีเจอร์ผ่าน Adaptive Instance Normalization (AdaIN) ซึ่งควบคุมคุณลักษณะตั้งแต่ท่าทาง (ชั้นหยาบ) ไปจนถึงพื้นผิว (ชั้นละเอียด) อินพุตสัญญาณรบกวนต่อชั้นจะเพิ่มรายละเอียดแบบสุ่ม เช่น กระและเส้นขนที่หลงเหลือ StyleGAN2 (2020) แทนที่ AdaIN ด้วย demodulation น้ำหนักเพื่อลบสิ่งประดิษฐ์ 'blob' และ StyleGAN3 (2021) แก้ไขนามแฝงการยึดพื้นผิวเพื่อให้ฟีเจอร์เคลื่อนไหวอย่างเป็นธรรมชาติระหว่างแอนิเมชั่น

ข้อมูลเชิงลึกทางเทคนิค

กลไกสำคัญคือการมอดูเลตตามสไตล์ เครือข่ายการทำแผนที่จะเปลี่ยน z ให้เป็น w และการเรียนรู้การแปลงความสัมพันธ์ที่เรียนรู้จะแปลง w เป็นสเกลต่อช่องสัญญาณและอคติที่ใช้กับฟีเจอร์แมปที่ทำให้เป็นมาตรฐานในแต่ละความละเอียด เนื่องจากสไตล์ทำหน้าที่ทีละชั้น คุณสามารถผสม w ของรูปภาพหนึ่งรูปภาพในเลเยอร์หยาบกับอีกรูปภาพในเลเยอร์ละเอียด ('การผสมสไตล์') เพื่อสลับท่าทางโดยยังคงรักษาพื้นผิวไว้ การดีโมดูเลชั่นของ StyleGAN2 จะพับสถิติเหล่านี้ลงในน้ำหนักการบิด โดยกำจัดสิ่งที่ทำให้เป็นมาตรฐาน

การเรียนรู้สถาปัตยกรรม StyleGAN

StyleGAN เป็นเครือข่ายปฏิปักษ์ที่สร้างจาก NVIDIA ที่สร้างใบหน้าและวัตถุที่สมจริงอย่างน่าทึ่งโดยการฉีดข้อมูลสไตล์ในทุกเลเยอร์ สิ่งสำคัญคือเนื่องจากการออกแบบให้การควบคุมคุณลักษณะของภาพที่หยาบและละเอียดอย่างที่ไม่เคยมีมาก่อนและไม่พันกัน สถาปัตยกรรม StyleGAN เป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์ หากต้องการสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่าสถาปัตยกรรม StyleGAN เป็นเพียงแบบจำลองการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้สถาปัตยกรรม StyleGAN จะรักษาสมดุลระหว่างความแม่นยำกับความเป็นจริงในการปฏิบัติงาน เช่น คุณภาพของข้อมูล ความแปรปรวนของแสง และความสม่ำเสมอในการติดฉลาก โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในขณะเดียวกัน สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของสถาปัตยกรรม StyleGAN

แม้ว่าโมเดลการแพร่กระจายจะนำไปสู่การสร้างข้อความเป็นรูปภาพโดยทั่วไป แต่พื้นที่แฝงที่มีโครงสร้างสูงและแก้ไขได้ (W และ W+) ของ StyleGAN ทำให้เป็นศูนย์กลางในการแก้ไขใบหน้า การจัดการคุณลักษณะ และการสังเคราะห์แบบเรียลไทม์โดยที่ GAN ยังคงทำงานได้เร็วขึ้น คาดหวังการทำงานอย่างต่อเนื่องเกี่ยวกับการผกผันของ GAN (การฉายภาพจริงลงใน W) รูปแบบการรับรู้ 3 มิติ เช่น EG3D ที่ให้มุมมองที่สอดคล้องกัน และลูกผสมที่จับคู่ค่าแฝงที่ควบคุมได้ของ StyleGAN กับการแพร่หรือตัวเปลี่ยนหม้อแปลง เพื่อสิ่งที่ดีที่สุดของทั้งสองโลก

การใช้งานจริงในโลกแห่งความเป็นจริง

การสร้างใบหน้ามนุษย์ที่ไม่มีอยู่จริงเหมือนจริงเหมือนจริงอย่างไม่มีที่สิ้นสุด ตามที่จัดแสดงโดย thispersondoesnotexist.com

การแก้ไขใบหน้าตามความหมาย: เปลี่ยนอายุ การแสดงออก หรือท่าทางได้อย่างราบรื่นโดยการเคลื่อนที่ไปตามทิศทางในพื้นที่ W

การสร้างข้อมูลการฝึกอบรมสังเคราะห์และอวาตาร์เมื่อรูปภาพจริงที่ไม่ละเมิดความเป็นส่วนตัวมีน้อย

เครื่องมือทางศิลปะที่สอดแทรกหรือ 'ผสมผสานสไตล์' ระหว่างรูปภาพเพื่อผสมผสานโครงสร้างหยาบและรายละเอียดที่ละเอียด

รูปแบบการดำเนินงาน

สถาปัตยกรรม StyleGAN ในทางปฏิบัติ

การสร้างใบหน้ามนุษย์ที่ไม่มีอยู่จริงเหมือนจริงเหมือนจริงอย่างไม่มีที่สิ้นสุด ตามที่จัดแสดงโดย thispersondoesnotexist.com

การสร้างใบหน้ามนุษย์ที่ไม่มีอยู่จริงเหมือนจริงเหมือนจริงอย่างไม่มีที่สิ้นสุด ดังที่จัดแสดงโดยทีม thispersondoesnotexist.com มักจะได้รับผลลัพธ์ที่ดีกว่า เมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

สถาปัตยกรรม StyleGAN ในทางปฏิบัติ

การแก้ไขใบหน้าตามความหมาย: เปลี่ยนอายุ การแสดงออก หรือท่าทางได้อย่างราบรื่นโดยการเคลื่อนที่ไปตามทิศทางในพื้นที่ W

การแก้ไขใบหน้าตามความหมาย: เปลี่ยนอายุ การแสดงออก หรือท่าทางได้อย่างราบรื่นโดยการเคลื่อนที่ไปตามทิศทางใน W space ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

สถาปัตยกรรม StyleGAN ในทางปฏิบัติ

การสร้างข้อมูลการฝึกอบรมสังเคราะห์และอวาตาร์เมื่อรูปภาพจริงที่ไม่ละเมิดความเป็นส่วนตัวมีน้อย

การสร้างข้อมูลการฝึกอบรมสังเคราะห์และอวาตาร์เมื่อรูปภาพจริงที่ปลอดภัยต่อความเป็นส่วนตัวมีน้อย ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อกำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

สถาปัตยกรรม StyleGAN ในทางปฏิบัติ

เครื่องมือทางศิลปะที่สอดแทรกหรือ 'ผสมผสานสไตล์' ระหว่างรูปภาพเพื่อผสมผสานโครงสร้างหยาบและรายละเอียดที่ละเอียด

เครื่องมือทางศิลปะที่สอดแทรกหรือ 'ผสมผสานสไตล์' ระหว่างรูปภาพเพื่อผสมผสานโครงสร้างหยาบและรายละเอียดที่ละเอียด ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน

!

ประสิทธิภาพของโมเดลอาจแตกต่างกันไปตามสภาพแสง ข้อมูลประชากร และสภาพแวดล้อม

!

ผลบวกลวงอาจไม่สังเกตเห็นเว้นแต่จะมีการตรวจสอบเกณฑ์ความเชื่อมั่น

แผนงานการดำเนินงาน

1

กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด

กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง

ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง

เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล

ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป