คู่มือ VQ-VAE และ Discrete Latents

ภาพรวม

VQ-VAE บีบอัดรูปภาพ เสียง หรือวิดีโอลงในตารางเล็กๆ ของโค้ดแยกที่ดึงมาจาก Codebook ที่เรียนรู้ แทนที่จะเป็นตัวเลขต่อเนื่อง คอขวดที่ไม่ต่อเนื่องนี้ช่วยให้โมเดลลำดับอันทรงพลังเช่น Transformers ปฏิบัติต่อสื่อเสมือนเป็น 'โทเค็น' เช่นเดียวกับคำพูด

VQ-VAE และ Discrete Latents เป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์

เจาะลึก

VQ-VAE (Vector Quantized Variational Autoencoder) เปิดตัวโดย van den Oord และเพื่อนร่วมงานที่ DeepMind ในปี 2017 คือโปรแกรมเข้ารหัสอัตโนมัติที่มีพื้นที่แฝงไม่ต่อเนื่อง ตัวเข้ารหัสจะเปลี่ยนรูปภาพให้เป็นตารางของเวกเตอร์ต่อเนื่อง จากนั้นเวกเตอร์แต่ละตัวจะถูกจัดชิดเข้ากับรายการที่ใกล้ที่สุดในสมุดโค้ดที่เรียนรู้เกี่ยวกับการฝัง (การหาปริมาณเวกเตอร์) ตัวถอดรหัสจะสร้างภาพขึ้นใหม่จากโค้ดเชิงปริมาณเหล่านั้น เนื่องจากขณะนี้ค่าแฝงเป็นคำศัพท์ที่มีจำกัดของดัชนี โมเดลที่แยกจากกันจึงสามารถเรียนรู้การกระจายตัวของดัชนีและสร้างเนื้อหาใหม่ได้ สูตรสองขั้นตอนนี้ขับเคลื่อน DALL-E 1, Jukebox สำหรับการดนตรี และ VQGAN ซึ่งเพิ่มการสูญเสียการรับรู้และความขัดแย้งสำหรับการสร้างใหม่ให้คมชัดยิ่งขึ้น VQ-VAE-2 ซ้อนกันหลายความละเอียดเพื่อสร้างภาพที่มีความเที่ยงตรงสูง

ข้อมูลเชิงลึกทางเทคนิค

ขั้นตอนการหาปริมาณ (การค้นหา argmin ใกล้บ้านเคียงที่สุด) ไม่สามารถหาความแตกต่างได้ ดังนั้น VQ-VAE จึงใช้ตัวประมาณค่าแบบตรง: การไล่ระดับสีจะถูกคัดลอกโดยตรงจากอินพุตตัวถอดรหัสกลับไปยังเอาต์พุตตัวเข้ารหัสราวกับว่าการหาปริมาณเป็นเอกลักษณ์ การฝึกอบรมรวมการสูญเสียการสร้างใหม่ การสูญเสียสมุดโค้ดที่ดึงการฝังไปยังเอาต์พุตของตัวเข้ารหัส และการสูญเสียความมุ่งมั่นที่ทำให้ตัวเข้ารหัสผูกพันกับรหัสที่เลือก ความล้มเหลวทั่วไปคือการล่มสลายของ Codebook ซึ่งมีการใช้โค้ดเพียงไม่กี่โค้ดเท่านั้น

การเรียนรู้ VQ-VAE และ Discrete Latents

หากต้องการสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า VQ-VAE และ Discrete Latents เป็นเพียงโมเดลการทำงาน ไม่ใช่คุณลักษณะเดียว กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ VQ-VAE และ Discrete Latents จะรักษาสมดุลระหว่างความแม่นยำกับความเป็นจริงในการปฏิบัติงาน เช่น คุณภาพของข้อมูล ความแปรปรวนของแสง และความสม่ำเสมอในการติดฉลาก โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในขณะเดียวกัน สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของ VQ-VAE และ Discrete Latents

Discrete Latents เป็นศูนย์กลางในการผลักดันไปสู่โมเดลหลายรูปแบบที่รวมเป็นหนึ่งซึ่งแปลงภาพ เสียง และวิดีโอให้เป็นคำศัพท์เดียวกันกับข้อความ การปรับปรุงต่างๆ เช่น การหาปริมาณสเกลาร์ที่เหลือและจำกัด หนังสือรหัสที่ใหญ่ขึ้น และการปรับสมดุลการใช้งานที่ดีขึ้น กำลังลดการล่มสลายและเพิ่มความเที่ยงตรง เนื่องจากแบบจำลองมีเป้าหมายที่จะทำความเข้าใจและสร้างในรูปแบบต่างๆ โทเคนไนเซอร์ที่มีประสิทธิภาพซึ่งสร้างขึ้นจากแนวคิด VQ-VAE จะยังคงเป็นองค์ประกอบพื้นฐาน โดยมีการแข่งขันกันมากขึ้น และผสมผสานกับแนวทางการแพร่กระจายที่แฝงอยู่อย่างต่อเนื่อง

การใช้งานจริงในโลกแห่งความเป็นจริง

DALL-E 1 ใช้โทเค็นไนเซอร์ VQ-VAE แบบแยก ดังนั้น Transformer จึงสามารถสร้างรูปภาพเป็นลำดับของดัชนีสมุดโค้ดได้

VQGAN รวม VQ-VAE เข้ากับการสูญเสียฝ่ายตรงข้ามและการรับรู้เพื่อสร้างโทเค็นภาพที่คมชัดและมีความละเอียดสูงสำหรับการสร้างงานศิลปะ

ตู้เพลงของ OpenAI ใช้ VQ-VAE กับเสียง Raw โดยบีบอัดเพลงเป็นโค้ดแยกสำหรับการสร้างแบบจำลองเชิงกำเนิด

VQ-VAE-2 ซ้อนค่าแฝงแบบไม่ต่อเนื่องแบบลำดับชั้นเพื่อสังเคราะห์รูปภาพที่หลากหลายและมีความแม่นยำสูงซึ่งเทียบได้กับ GAN ในยุคนั้น

รูปแบบการดำเนินงาน

VQ-VAE และ Discrete Latents ในทางปฏิบัติ

DALL-E 1 ใช้โทเค็นไนเซอร์ VQ-VAE แบบแยก ดังนั้น Transformer จึงสามารถสร้างรูปภาพเป็นลำดับของดัชนีสมุดโค้ดได้

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

VQ-VAE และ Discrete Latents ในทางปฏิบัติ

VQGAN รวม VQ-VAE เข้ากับการสูญเสียฝ่ายตรงข้ามและการรับรู้เพื่อสร้างโทเค็นภาพที่คมชัดและมีความละเอียดสูงสำหรับการสร้างงานศิลปะ

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

VQ-VAE และ Discrete Latents ในทางปฏิบัติ

ตู้เพลงของ OpenAI ใช้ VQ-VAE กับเสียง Raw โดยบีบอัดเพลงเป็นโค้ดแยกสำหรับการสร้างแบบจำลองเชิงกำเนิด

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

VQ-VAE และ Discrete Latents ในทางปฏิบัติ

VQ-VAE-2 ซ้อนค่าแฝงแบบไม่ต่อเนื่องแบบลำดับชั้นเพื่อสังเคราะห์รูปภาพที่หลากหลายและมีความแม่นยำสูงซึ่งเทียบได้กับ GAN ในยุคนั้น

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน

!

ประสิทธิภาพของโมเดลอาจแตกต่างกันไปตามสภาพแสง ข้อมูลประชากร และสภาพแวดล้อม

!

ผลบวกลวงอาจไม่สังเกตเห็นเว้นแต่จะมีการตรวจสอบเกณฑ์ความเชื่อมั่น

แผนงานการดำเนินงาน

1

กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป

คอมพิวเตอร์วิทัศน์

ทำความเข้าใจระบบพื้นฐานที่ขับเคลื่อน Visual AI

อ่านคู่มือ

การสร้างภาพ AI

สำรวจเวิร์กโฟลว์การสร้างและการแลกเปลี่ยนแบบจำลอง

อ่านคู่มือ

VQ-VAE และค่าแฝงแบบไม่ต่อเนื่อง

ภาพรวม

เจาะลึก

ข้อมูลเชิงลึกทางเทคนิค

การเรียนรู้ VQ-VAE และ Discrete Latents

ผลกระทบเชิงกลยุทธ์

อนาคตของ VQ-VAE และ Discrete Latents

การใช้งานจริงในโลกแห่งความเป็นจริง

รูปแบบการดำเนินงาน

VQ-VAE และ Discrete Latents ในทางปฏิบัติ

VQ-VAE และ Discrete Latents ในทางปฏิบัติ

VQ-VAE และ Discrete Latents ในทางปฏิบัติ

VQ-VAE และ Discrete Latents ในทางปฏิบัติ

ความเสี่ยงและรั้ว

แผนงานการดำเนินงาน

สำรวจต่อไป

คอมพิวเตอร์วิทัศน์

การสร้างภาพ AI

Related guides