คู่มือตัวเข้ารหัสอัตโนมัติแบบสวมหน้ากาก

ภาพรวม

Masked Autoencoders (MAE) เป็นวิธีการดูแลตนเองที่สอนโมเดลการมองเห็นเพื่อสร้างภาพขึ้นใหม่หลังจากที่รูปภาพส่วนใหญ่ถูกซ่อนไว้ ด้วยการเรียนรู้ที่จะเติมคำในช่องว่าง แบบจำลองจะสร้างความเข้าใจเชิงภาพที่สมบูรณ์โดยไม่ต้องมีป้ายกำกับของมนุษย์

Masked Autoencoders เป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์

เจาะลึก

โปรแกรมเข้ารหัสอัตโนมัติแบบสวมหน้ากากซึ่งแนะนำโดย Kaiming He และเพื่อนร่วมงานที่ Meta AI ในปี 2021 ถ่ายภาพ แบ่งออกเป็นแพตช์เล็กๆ และสุ่มซ่อนส่วนที่มีขนาดใหญ่มาก ซึ่งมักจะอยู่ที่ 75% ตัวเข้ารหัส Vision Transformer จะประมวลผลเฉพาะแพตช์ที่มองเห็นได้เท่านั้น ในขณะที่ตัวถอดรหัสน้ำหนักเบาจะพยายามสร้างพิกเซลดั้งเดิมของพิกเซลที่หายไปขึ้นมาใหม่ เนื่องจากมีสิ่งที่ซ่อนอยู่มากมาย โมเดลจึงไม่สามารถคัดลอกพิกเซลใกล้เคียงได้ง่ายๆ และต้องเรียนรู้โครงสร้างที่มีความหมาย เช่น รูปร่างและส่วนของวัตถุ ตัวเข้ารหัสที่ข้ามแพตช์ที่สวมหน้ากากทำให้การฝึกทำได้รวดเร็วและหน่วยความจำมีประสิทธิภาพ หลังจากการฝึกล่วงหน้า ตัวถอดรหัสจะถูกละทิ้ง และเครื่องเข้ารหัสจะถ่ายโอนไปยังงานจำแนกประเภท การตรวจจับ และการแบ่งส่วน

ข้อมูลเชิงลึกทางเทคนิค

เคล็ดลับสำคัญคือความไม่สมมาตร: ตัวเข้ารหัสขนาดใหญ่มองเห็นเพียง 25% ของแพตช์ที่ไม่ได้ปกปิดเท่านั้น ในขณะที่ตัวถอดรหัสขนาดเล็กจะสร้างส่วนที่เหลือขึ้นมาใหม่ แพตช์จะแบนราบ ฝังเป็นเส้นตรง และได้รับการเข้ารหัสตามตำแหน่ง การสูญเสียการสร้างใหม่เป็นข้อผิดพลาดกำลังสองเฉลี่ยที่คำนวณเฉพาะบนแพตช์ที่ปิดบัง โดยทั่วไปจะเป็นค่าพิกเซลที่ทำให้เป็นมาตรฐาน อัตราส่วนการมาสก์ที่สูงบังคับให้การเรียนรู้เชิงความหมายมากกว่าการแก้ไขในระดับต่ำ และการข้ามโทเค็นที่มาสก์ในโปรแกรมเปลี่ยนไฟล์จะตัดการประมวลผลอย่างมากเมื่อเทียบกับการประมวลผลภาพเต็ม

การเรียนรู้ตัวเข้ารหัสอัตโนมัติแบบสวมหน้ากาก

หากต้องการสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Masked Autoencoders เป็นเพียงโมเดลการทำงาน ไม่ใช่ฟีเจอร์เดียว กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Masked Autoencoders จะรักษาสมดุลระหว่างความแม่นยำกับความเป็นจริงในการปฏิบัติงาน เช่น คุณภาพของข้อมูล ความแปรปรวนของแสง และความสม่ำเสมอในการติดฉลาก โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในขณะเดียวกัน สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของตัวเข้ารหัสอัตโนมัติแบบสวมหน้ากาก

การสร้างมาสก์ขึ้นใหม่แบบ MAE กำลังกลายเป็นสูตรการฝึกล่วงหน้าเริ่มต้นในรูปแบบต่างๆ นักวิจัยกำลังขยายขอบเขตไปยังวิดีโอ (ซ่อนลูกบาศก์กาลอวกาศ) สเปกโตรแกรมเสียง การสแกนทางการแพทย์ และภาพถ่ายดาวเทียม ซึ่งป้ายกำกับนั้นหายากและมีราคาแพง คาดหวังการผสมผสานที่แน่นแฟ้นยิ่งขึ้นกับภาษาสำหรับโมเดลรากฐานหลายรูปแบบ ตัวถอดรหัสที่มีประสิทธิภาพมากขึ้น และการมาสก์แบบปรับเปลี่ยนได้ซึ่งกำหนดเป้าหมายไปยังภูมิภาคที่ให้ข้อมูล เมื่อการประมวลผลเติบโตขึ้น การฝึกอบรมล่วงหน้าแบบสวมหน้ากากในคอลเลกชันรูปภาพขนาดใหญ่ที่ไม่มีป้ายกำกับควรปรับปรุงความแม่นยำดาวน์สตรีมต่อไป ในขณะเดียวกันก็ลดการพึ่งพาคำอธิบายประกอบของมนุษย์ที่มีค่าใช้จ่ายสูง

การใช้งานจริงในโลกแห่งความเป็นจริง

ฝึกอบรม Vision Transformer ล่วงหน้ากับภาพถ่ายที่ไม่มีป้ายกำกับหลายล้านภาพ จากนั้นปรับแต่งอย่างละเอียดสำหรับการจัดหมวดหมู่ ImageNet ด้วยความแม่นยำระดับสูง

คุณลักษณะการเรียนรู้จากการสแกนทางการแพทย์ที่ไม่มีป้ายกำกับ (X-rays, MRI) ซึ่งคำอธิบายประกอบของผู้เชี่ยวชาญมีราคาแพงและมีจำกัด

การปรับวิธีการเข้ากับวิดีโอโดยการมาสก์แพตช์กาลอวกาศเพื่อฝึกโมเดลการรู้จำการกระทำล่วงหน้า (VideoMAE)

การฝึกอบรมล่วงหน้าเกี่ยวกับภาพถ่ายดาวเทียมและภาพถ่ายทางอากาศเพื่อรองรับการทำแผนที่การใช้ที่ดินและการตรวจจับการเปลี่ยนแปลงโดยไม่ต้องใช้ป้ายกำกับด้วยตนเอง

รูปแบบการดำเนินงาน

ตัวเข้ารหัสอัตโนมัติแบบสวมหน้ากากในทางปฏิบัติ

ฝึกอบรม Vision Transformer ล่วงหน้ากับภาพถ่ายหลายล้านภาพที่ไม่มีป้ายกำกับ จากนั้นปรับแต่งอย่างละเอียดสำหรับการจัดประเภท ImageNet ด้วยความแม่นยำระดับสูง

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ตัวเข้ารหัสอัตโนมัติแบบสวมหน้ากากในทางปฏิบัติ

คุณลักษณะการเรียนรู้จากการสแกนทางการแพทย์ที่ไม่มีป้ายกำกับ (X-rays, MRI) ซึ่งคำอธิบายประกอบของผู้เชี่ยวชาญมีราคาแพงและมีจำกัด

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ตัวเข้ารหัสอัตโนมัติแบบสวมหน้ากากในทางปฏิบัติ

การปรับวิธีการเข้ากับวิดีโอโดยการมาสก์แพตช์กาลอวกาศเพื่อฝึกโมเดลการจดจำการกระทำ (VideoMAE) ล่วงหน้า

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ตัวเข้ารหัสอัตโนมัติแบบสวมหน้ากากในทางปฏิบัติ

การฝึกอบรมล่วงหน้าเกี่ยวกับภาพถ่ายดาวเทียมและภาพถ่ายทางอากาศเพื่อรองรับการทำแผนที่การใช้ที่ดินและการตรวจจับการเปลี่ยนแปลงโดยไม่ต้องใช้ป้ายกำกับด้วยตนเอง

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน

!

ประสิทธิภาพของโมเดลอาจแตกต่างกันไปตามสภาพแสง ข้อมูลประชากร และสภาพแวดล้อม

!

ผลบวกลวงอาจไม่สังเกตเห็นเว้นแต่จะมีการตรวจสอบเกณฑ์ความเชื่อมั่น

แผนงานการดำเนินงาน

1

กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป

คอมพิวเตอร์วิทัศน์

ทำความเข้าใจระบบพื้นฐานที่ขับเคลื่อน Visual AI

อ่านคู่มือ

การสร้างภาพ AI

สำรวจเวิร์กโฟลว์การสร้างและการแลกเปลี่ยนแบบจำลอง

อ่านคู่มือ

ตัวเข้ารหัสอัตโนมัติที่สวมหน้ากาก

ภาพรวม

เจาะลึก

ข้อมูลเชิงลึกทางเทคนิค

การเรียนรู้ตัวเข้ารหัสอัตโนมัติแบบสวมหน้ากาก

ผลกระทบเชิงกลยุทธ์

อนาคตของตัวเข้ารหัสอัตโนมัติแบบสวมหน้ากาก

การใช้งานจริงในโลกแห่งความเป็นจริง

รูปแบบการดำเนินงาน

ตัวเข้ารหัสอัตโนมัติแบบสวมหน้ากากในทางปฏิบัติ

ตัวเข้ารหัสอัตโนมัติแบบสวมหน้ากากในทางปฏิบัติ

ตัวเข้ารหัสอัตโนมัติแบบสวมหน้ากากในทางปฏิบัติ

ตัวเข้ารหัสอัตโนมัติแบบสวมหน้ากากในทางปฏิบัติ

ความเสี่ยงและรั้ว

แผนงานการดำเนินงาน

สำรวจต่อไป

คอมพิวเตอร์วิทัศน์

การสร้างภาพ AI

Related guides