คู่มือ AI แบบเห็นภาพ

การสังเคราะห์ภาพ VQGAN และ Codebook

VQGAN บีบอัดรูปภาพลงในตารางของโทเค็นแยกจากหนังสือโค้ดที่เรียนรู้ โดยปล่อยให้ Transformer สร้างรูปภาพในลักษณะเดียวกับที่โมเดลภาษาสร้างข้อความ

ภาพรวม

VQGAN บีบอัดรูปภาพลงในตารางของโทเค็นแยกจากหนังสือโค้ดที่เรียนรู้ โดยปล่อยให้ Transformer สร้างรูปภาพในลักษณะเดียวกับที่โมเดลภาษาสร้างข้อความ

VQGAN และการสังเคราะห์ภาพ Codebook เป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพสำหรับการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์

เจาะลึก

VQGAN ซึ่งเปิดตัวในรายงานปี 2021 เรื่อง 'Taming Transformers for High-Resolution Image Sสังเคราะห์' ได้รวมเอาตัวเข้ารหัสอัตโนมัติแบบเวกเตอร์ควอนตัม (VQVAE) เข้ากับการฝึกอบรมฝ่ายตรงข้ามและการรับรู้ ตัวเข้ารหัสจับคู่รูปภาพกับตารางเล็กๆ ของเวกเตอร์คุณลักษณะ เวกเตอร์แต่ละตัวจะถูกจัดชิดเข้ากับรายการที่ใกล้ที่สุดในสมุดรหัสที่เรียนรู้ เช่น รหัสแยก 1,024 รหัส โดยเปลี่ยนรูปภาพให้เป็นลำดับของโทเค็นจำนวนเต็ม ตัวถอดรหัสจะสร้างภาพขึ้นมาใหม่จากโทเค็นเหล่านั้น ซึ่งได้รับการฝึกฝนโดยใช้ตัวแยกแยะ GAN และการสูญเสียการรับรู้ ดังนั้น การสร้างใหม่จึงดูคมชัดมากกว่าที่จะพร่ามัว เนื่องจากขณะนี้รูปภาพเป็นลำดับโทเค็นที่แยกจากกัน หม้อแปลงแบบออโต้รีเกรสซีฟจึงสามารถสร้างแบบจำลองเหล่านั้นได้เหมือนกับภาษา โดยทำนายโทเค็นทีละรายการ VQGAN ขับเคลื่อนเครื่องมือศิลปะการแปลงข้อความเป็นรูปภาพในยุคแรกๆ ที่มีชื่อเสียงเมื่อจับคู่กับคำแนะนำของ CLIP

ข้อมูลเชิงลึกทางเทคนิค

การดำเนินการหลักคือการหาปริมาณเวกเตอร์: เอาต์พุตของตัวเข้ารหัสแบบต่อเนื่องจะถูกแทนที่ด้วยเวกเตอร์ codebook ที่ใกล้ที่สุด พร้อมด้วยตัวประมาณค่าการไล่ระดับสีแบบ 'ตรง' เพื่อให้ตัวเข้ารหัสยังสามารถเรียนรู้ได้แม้จะมีการค้นหาที่ไม่มีความแตกต่างก็ตาม การเพิ่มตัวแยก GAN แบบอิงแพตช์ที่ด้านบนของตัวเข้ารหัสอัตโนมัติคือสิ่งที่ทำให้ VQGAN ใช้ตารางโทเค็นที่เล็กกว่ามาก (เช่น 16x16) กว่า VQVAE ในขณะที่ยังคงรักษาพื้นผิวให้คมชัด ทำให้การสร้างแบบจำลองหม้อแปลงทำได้ง่าย

เชี่ยวชาญการสังเคราะห์ภาพ VQGAN และ Codebook

VQGAN บีบอัดรูปภาพลงในตารางของโทเค็นแยกจากหนังสือโค้ดที่เรียนรู้ โดยปล่อยให้ Transformer สร้างรูปภาพในลักษณะเดียวกับที่โมเดลภาษาสร้างข้อความ VQGAN และการสังเคราะห์ภาพ Codebook เป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพสำหรับการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์ หากต้องการสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า VQGAN และ Codebook Image Sclusion เป็นแบบจำลองการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ VQGAN และการสังเคราะห์ภาพ Codebook จะรักษาสมดุลระหว่างความแม่นยำกับความเป็นจริงในการปฏิบัติงาน เช่น คุณภาพของข้อมูล ความแปรปรวนของแสง และความสม่ำเสมอในการติดฉลาก โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในขณะเดียวกัน สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของ VQGAN และการสังเคราะห์ภาพ Codebook

สูตรโทเค็นแยกของ VQGAN กลายเป็นรากฐานสำหรับโมเดลรูปภาพและวิดีโอที่ใช้โทเค็น ตั้งแต่ MaskGIT ไปจนถึงระบบหลายรูปแบบที่ผสมโทเค็นรูปภาพและข้อความในหม้อแปลงตัวเดียว ขณะนี้การวิจัยได้ผลักดันไปสู่ ​​Codebook ที่ใหญ่ขึ้น มีสเกลาร์จำกัด หรือไม่มีการค้นหา ซึ่งหลีกเลี่ยงการล่มสลายของ Codebook และไปสู่โมเดลที่เป็นหนึ่งเดียว ซึ่งคำศัพท์เดียวกันครอบคลุมทั้งรูปภาพ เสียง และภาษา ทำให้สามารถใช้งานรุ่นใดก็ได้

การใช้งานจริงในโลกแห่งความเป็นจริง

การเข้ารหัสภาพถ่ายลงในตารางโทเค็นสมุดโค้ดขนาด 16x16 เพื่อให้หม้อแปลงสามารถสร้างแบบจำลองและสร้างใหม่ได้

จับคู่ VQGAN กับคำแนะนำของ CLIP เพื่อสร้างงานศิลปะ AI 'VQGAN+CLIP' แบบเหนือจริงที่แพร่ระบาดในปี 2021

การบีบอัดรูปภาพเป็นโค้ดแยกขนาดกะทัดรัดเพื่อการจัดเก็บข้อมูลที่มีประสิทธิภาพหรือการฝึกอบรมการสร้างดาวน์สตรีม

ทำหน้าที่เป็นอิมเมจโทเค็นไนเซอร์ภายในตัวสร้างที่ใช้โทเค็นขนาดใหญ่ เช่น MaskGIT และหม้อแปลงหลายรูปแบบ

รูปแบบการดำเนินงาน

การสังเคราะห์ภาพ VQGAN และ Codebook ในทางปฏิบัติ

การเข้ารหัสรูปภาพลงในตารางโทเค็นสมุดโค้ดขนาด 16x16 เพื่อให้หม้อแปลงสามารถสร้างแบบจำลองและสร้างใหม่ได้

การเข้ารหัสรูปภาพลงในตารางโทเค็นสมุดรหัสขนาด 16x16 เพื่อให้หม้อแปลงสามารถสร้างแบบจำลองและสร้างใหม่ได้ โดยปกติแล้วทีมจะได้รับผลลัพธ์ที่ดีขึ้นเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การสังเคราะห์ภาพ VQGAN และ Codebook ในทางปฏิบัติ

จับคู่ VQGAN กับคำแนะนำของ CLIP เพื่อสร้างงานศิลปะ AI 'VQGAN+CLIP' แบบเหนือจริงที่แพร่ระบาดในปี 2021

การจับคู่ VQGAN กับคำแนะนำของ CLIP เพื่อสร้างงานศิลปะ AI 'VQGAN+CLIP' แบบเหนือจริงที่แพร่ระบาดในปี 2021 ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การสังเคราะห์ภาพ VQGAN และ Codebook ในทางปฏิบัติ

การบีบอัดรูปภาพเป็นโค้ดแยกขนาดกะทัดรัดเพื่อการจัดเก็บข้อมูลที่มีประสิทธิภาพหรือการฝึกอบรมการสร้างดาวน์สตรีม

การบีบอัดรูปภาพเป็นโค้ดแยกขนาดกะทัดรัดเพื่อการจัดเก็บข้อมูลที่มีประสิทธิภาพหรือการฝึกอบรมการสร้างดาวน์สตรีม ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การสังเคราะห์ภาพ VQGAN และ Codebook ในทางปฏิบัติ

ทำหน้าที่เป็นอิมเมจโทเค็นไนเซอร์ภายในตัวสร้างที่ใช้โทเค็นขนาดใหญ่ เช่น MaskGIT และหม้อแปลงหลายรูปแบบ

ทำหน้าที่เป็นโทเค็นอิมเมจภายในตัวสร้างโทเค็นขนาดใหญ่ เช่น MaskGIT และหม้อแปลงหลายรูปแบบ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน

!

ประสิทธิภาพของโมเดลอาจแตกต่างกันไปตามสภาพแสง ข้อมูลประชากร และสภาพแวดล้อม

!

ผลบวกลวงอาจไม่สังเกตเห็นเว้นแต่จะมีการตรวจสอบเกณฑ์ความเชื่อมั่น

แผนงานการดำเนินงาน

1

กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด

กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง

ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง

เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล

ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป