ภาพรวม
VQ-VAE บีบอัดรูปภาพ เสียง หรือวิดีโอลงในตารางเล็กๆ ของโค้ดแยกที่ดึงมาจาก Codebook ที่เรียนรู้ แทนที่จะเป็นตัวเลขต่อเนื่อง คอขวดที่ไม่ต่อเนื่องนี้ช่วยให้โมเดลลำดับอันทรงพลังเช่น Transformers ปฏิบัติต่อสื่อเสมือนเป็น 'โทเค็น' เช่นเดียวกับคำพูด
VQ-VAE และ Discrete Latents เป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์
เจาะลึก
VQ-VAE (Vector Quantized Variational Autoencoder) เปิดตัวโดย van den Oord และเพื่อนร่วมงานที่ DeepMind ในปี 2017 คือโปรแกรมเข้ารหัสอัตโนมัติที่มีพื้นที่แฝงไม่ต่อเนื่อง ตัวเข้ารหัสจะเปลี่ยนรูปภาพให้เป็นตารางของเวกเตอร์ต่อเนื่อง จากนั้นเวกเตอร์แต่ละตัวจะถูกจัดชิดเข้ากับรายการที่ใกล้ที่สุดในสมุดโค้ดที่เรียนรู้เกี่ยวกับการฝัง (การหาปริมาณเวกเตอร์) ตัวถอดรหัสจะสร้างภาพขึ้นใหม่จากโค้ดเชิงปริมาณเหล่านั้น เนื่องจากขณะนี้ค่าแฝงเป็นคำศัพท์ที่มีจำกัดของดัชนี โมเดลที่แยกจากกันจึงสามารถเรียนรู้การกระจายตัวของดัชนีและสร้างเนื้อหาใหม่ได้ สูตรสองขั้นตอนนี้ขับเคลื่อน DALL-E 1, Jukebox สำหรับการดนตรี และ VQGAN ซึ่งเพิ่มการสูญเสียการรับรู้และความขัดแย้งสำหรับการสร้างใหม่ให้คมชัดยิ่งขึ้น VQ-VAE-2 ซ้อนกันหลายความละเอียดเพื่อสร้างภาพที่มีความเที่ยงตรงสูง
ข้อมูลเชิงลึกทางเทคนิค
ขั้นตอนการหาปริมาณ (การค้นหา argmin ใกล้บ้านเคียงที่สุด) ไม่สามารถหาความแตกต่างได้ ดังนั้น VQ-VAE จึงใช้ตัวประมาณค่าแบบตรง: การไล่ระดับสีจะถูกคัดลอกโดยตรงจากอินพุตตัวถอดรหัสกลับไปยังเอาต์พุตตัวเข้ารหัสราวกับว่าการหาปริมาณเป็นเอกลักษณ์ การฝึกอบรมรวมการสูญเสียการสร้างใหม่ การสูญเสียสมุดโค้ดที่ดึงการฝังไปยังเอาต์พุตของตัวเข้ารหัส และการสูญเสียความมุ่งมั่นที่ทำให้ตัวเข้ารหัสผูกพันกับรหัสที่เลือก ความล้มเหลวทั่วไปคือการล่มสลายของ Codebook ซึ่งมีการใช้โค้ดเพียงไม่กี่โค้ดเท่านั้น
การเรียนรู้ VQ-VAE และ Discrete Latents อย่างเชี่ยวชาญ
VQ-VAE บีบอัดรูปภาพ เสียง หรือวิดีโอลงในตารางเล็กๆ ของโค้ดแยกที่ดึงมาจาก Codebook ที่เรียนรู้ แทนที่จะเป็นตัวเลขต่อเนื่อง คอขวดที่ไม่ต่อเนื่องนี้ช่วยให้โมเดลลำดับอันทรงพลังเช่น Transformers ปฏิบัติต่อสื่อเสมือนเป็น 'โทเค็น' เช่นเดียวกับคำพูด VQ-VAE และ Discrete Latents เป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์ เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า VQ-VAE และ Discrete Latents เป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ
ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ VQ-VAE และ Discrete Latents จะรักษาสมดุลระหว่างความแม่นยำกับความเป็นจริงในการปฏิบัติงาน เช่น คุณภาพของข้อมูล ความแปรปรวนของแสง และความสม่ำเสมอในการติดฉลาก โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน
Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในขณะเดียวกัน สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง
ผลกระทบเชิงกลยุทธ์
Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ
Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง
ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก
การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
การใช้งานจริงในโลกแห่งความเป็นจริง
DALL-E 1 ใช้โทเค็นไนเซอร์ VQ-VAE แบบแยก ดังนั้น Transformer จึงสามารถสร้างรูปภาพเป็นลำดับของดัชนีสมุดโค้ดได้
VQGAN รวม VQ-VAE เข้ากับการสูญเสียฝ่ายตรงข้ามและการรับรู้เพื่อสร้างโทเค็นภาพที่คมชัดและมีความละเอียดสูงสำหรับการสร้างงานศิลปะ
ตู้เพลงของ OpenAI ใช้ VQ-VAE กับเสียง Raw โดยบีบอัดเพลงเป็นโค้ดแยกสำหรับการสร้างแบบจำลองเชิงกำเนิด
VQ-VAE-2 ซ้อนค่าแฝงแบบไม่ต่อเนื่องแบบลำดับชั้นเพื่อสังเคราะห์รูปภาพที่หลากหลายและมีความแม่นยำสูงซึ่งเทียบได้กับ GAN ในยุคนั้น
รูปแบบการดำเนินงาน
VQ-VAE และ Discrete Latents ในทางปฏิบัติ
DALL-E 1 ใช้โทเค็นไนเซอร์ VQ-VAE แบบแยก ดังนั้น Transformer จึงสามารถสร้างรูปภาพเป็นลำดับของดัชนีสมุดโค้ดได้
DALL-E 1 ใช้โทเค็น VQ-VAE แบบแยก ดังนั้น Transformer จึงสามารถสร้างอิมเมจเป็นลำดับของดัชนีสมุดรหัส โดยปกติแล้วทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับ Edge Cases และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
VQ-VAE และ Discrete Latents ในทางปฏิบัติ
VQGAN รวม VQ-VAE เข้ากับการสูญเสียฝ่ายตรงข้ามและการรับรู้เพื่อสร้างโทเค็นภาพที่คมชัดและมีความละเอียดสูงสำหรับการสร้างงานศิลปะ
VQGAN รวม VQ-VAE เข้ากับการสูญเสียฝ่ายตรงข้ามและการรับรู้เพื่อสร้างโทเค็นภาพที่คมชัดและมีความละเอียดสูงสำหรับการสร้างผลงานศิลปะ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
VQ-VAE และ Discrete Latents ในทางปฏิบัติ
ตู้เพลงของ OpenAI ใช้ VQ-VAE กับเสียง Raw โดยบีบอัดเพลงเป็นโค้ดแยกสำหรับการสร้างแบบจำลองเชิงกำเนิด
ตู้เพลงของ OpenAI ใช้ VQ-VAE กับเสียงดิบ การบีบอัดเพลงเป็นโค้ดแยกสำหรับการสร้างแบบจำลองเชิงกำเนิด ทีมมักจะได้ผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับ Edge Case และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
VQ-VAE และ Discrete Latents ในทางปฏิบัติ
VQ-VAE-2 ซ้อนค่าแฝงแบบไม่ต่อเนื่องแบบลำดับชั้นเพื่อสังเคราะห์รูปภาพที่หลากหลายและมีความแม่นยำสูงซึ่งเทียบได้กับ GAN ในยุคนั้น
VQ-VAE-2 ซ้อนลำดับชั้นแฝงแฝงเพื่อสังเคราะห์ภาพที่หลากหลายและมีความแม่นยำสูงซึ่งแข่งขันกับ GAN ในยุคนั้น ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
ความเสี่ยงและรั้ว
สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน
ประสิทธิภาพของโมเดลอาจแตกต่างกันไปตามสภาพแสง ข้อมูลประชากร และสภาพแวดล้อม
ผลบวกลวงอาจไม่สังเกตเห็นเว้นแต่จะมีการตรวจสอบเกณฑ์ความเชื่อมั่น
แผนงานการดำเนินงาน
กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด
กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง
ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง
เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล
ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น