คู่มือ AI แบบเห็นภาพ

ตัวเข้ารหัสอัตโนมัติที่สวมหน้ากาก

Masked Autoencoders (MAE) เป็นวิธีการดูแลตนเองที่สอนโมเดลการมองเห็นเพื่อสร้างภาพขึ้นใหม่หลังจากที่รูปภาพส่วนใหญ่ถูกซ่อนไว้

ภาพรวม

Masked Autoencoders (MAE) เป็นวิธีการดูแลตนเองที่สอนโมเดลการมองเห็นเพื่อสร้างภาพขึ้นใหม่หลังจากที่รูปภาพส่วนใหญ่ถูกซ่อนไว้ ด้วยการเรียนรู้ที่จะเติมคำในช่องว่าง แบบจำลองจะสร้างความเข้าใจเชิงภาพที่สมบูรณ์โดยไม่ต้องมีป้ายกำกับของมนุษย์

Masked Autoencoders เป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์

เจาะลึก

โปรแกรมเข้ารหัสอัตโนมัติแบบสวมหน้ากากซึ่งแนะนำโดย Kaiming He และเพื่อนร่วมงานที่ Meta AI ในปี 2021 ถ่ายภาพ แบ่งออกเป็นแพตช์เล็กๆ และสุ่มซ่อนส่วนที่มีขนาดใหญ่มาก ซึ่งมักจะอยู่ที่ 75% ตัวเข้ารหัส Vision Transformer จะประมวลผลเฉพาะแพตช์ที่มองเห็นได้เท่านั้น ในขณะที่ตัวถอดรหัสน้ำหนักเบาจะพยายามสร้างพิกเซลดั้งเดิมของพิกเซลที่หายไปขึ้นมาใหม่ เนื่องจากมีสิ่งที่ซ่อนอยู่มากมาย โมเดลจึงไม่สามารถคัดลอกพิกเซลใกล้เคียงได้ง่ายๆ และต้องเรียนรู้โครงสร้างที่มีความหมาย เช่น รูปร่างและส่วนของวัตถุ ตัวเข้ารหัสที่ข้ามแพตช์ที่สวมหน้ากากทำให้การฝึกทำได้รวดเร็วและหน่วยความจำมีประสิทธิภาพ หลังจากการฝึกล่วงหน้า ตัวถอดรหัสจะถูกละทิ้ง และเครื่องเข้ารหัสจะถ่ายโอนไปยังงานจำแนกประเภท การตรวจจับ และการแบ่งส่วน

ข้อมูลเชิงลึกทางเทคนิค

เคล็ดลับสำคัญคือความไม่สมมาตร: ตัวเข้ารหัสขนาดใหญ่มองเห็นเพียง 25% ของแพตช์ที่ไม่ได้ปกปิดเท่านั้น ในขณะที่ตัวถอดรหัสขนาดเล็กจะสร้างส่วนที่เหลือขึ้นมาใหม่ แพตช์จะแบนราบ ฝังเป็นเส้นตรง และได้รับการเข้ารหัสตามตำแหน่ง การสูญเสียการสร้างใหม่เป็นข้อผิดพลาดกำลังสองเฉลี่ยที่คำนวณเฉพาะบนแพตช์ที่ปิดบัง โดยทั่วไปจะเป็นค่าพิกเซลที่ทำให้เป็นมาตรฐาน อัตราส่วนการมาสก์ที่สูงบังคับให้การเรียนรู้เชิงความหมายมากกว่าการแก้ไขในระดับต่ำ และการข้ามโทเค็นที่มาสก์ในโปรแกรมเปลี่ยนไฟล์จะตัดการประมวลผลอย่างมากเมื่อเทียบกับการประมวลผลภาพเต็ม

การเรียนรู้ตัวเข้ารหัสอัตโนมัติแบบสวมหน้ากาก

Masked Autoencoders (MAE) เป็นวิธีการดูแลตนเองที่สอนโมเดลการมองเห็นเพื่อสร้างภาพขึ้นใหม่หลังจากที่รูปภาพส่วนใหญ่ถูกซ่อนไว้ ด้วยการเรียนรู้ที่จะเติมคำในช่องว่าง แบบจำลองจะสร้างความเข้าใจเชิงภาพที่สมบูรณ์โดยไม่ต้องมีป้ายกำกับของมนุษย์ Masked Autoencoders เป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์ หากต้องการสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Masked Autoencoders เป็นเพียงโมเดลการทำงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Masked Autoencoders จะรักษาสมดุลระหว่างความแม่นยำกับความเป็นจริงในการปฏิบัติงาน เช่น คุณภาพของข้อมูล ความแปรปรวนของแสง และความสม่ำเสมอในการติดฉลาก โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในขณะเดียวกัน สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของตัวเข้ารหัสอัตโนมัติแบบสวมหน้ากาก

การสร้างมาสก์ขึ้นใหม่แบบ MAE กำลังกลายเป็นสูตรการฝึกล่วงหน้าเริ่มต้นในรูปแบบต่างๆ นักวิจัยกำลังขยายขอบเขตไปยังวิดีโอ (ซ่อนลูกบาศก์กาลอวกาศ) สเปกโตรแกรมเสียง การสแกนทางการแพทย์ และภาพถ่ายดาวเทียม ซึ่งป้ายกำกับนั้นหายากและมีราคาแพง คาดหวังการผสมผสานที่แน่นแฟ้นยิ่งขึ้นกับภาษาสำหรับโมเดลรากฐานหลายรูปแบบ ตัวถอดรหัสที่มีประสิทธิภาพมากขึ้น และการมาสก์แบบปรับเปลี่ยนได้ซึ่งกำหนดเป้าหมายไปยังภูมิภาคที่ให้ข้อมูล เมื่อการประมวลผลเติบโตขึ้น การฝึกอบรมล่วงหน้าแบบสวมหน้ากากในคอลเลกชันรูปภาพขนาดใหญ่ที่ไม่มีป้ายกำกับควรปรับปรุงความแม่นยำดาวน์สตรีมต่อไป ในขณะเดียวกันก็ลดการพึ่งพาคำอธิบายประกอบของมนุษย์ที่มีค่าใช้จ่ายสูง

การใช้งานจริงในโลกแห่งความเป็นจริง

ฝึกอบรม Vision Transformer ล่วงหน้ากับภาพถ่ายที่ไม่มีป้ายกำกับหลายล้านภาพ จากนั้นปรับแต่งอย่างละเอียดสำหรับการจัดหมวดหมู่ ImageNet ด้วยความแม่นยำระดับสูง

คุณลักษณะการเรียนรู้จากการสแกนทางการแพทย์ที่ไม่มีป้ายกำกับ (X-rays, MRI) ซึ่งคำอธิบายประกอบของผู้เชี่ยวชาญมีราคาแพงและมีจำกัด

การปรับวิธีการเข้ากับวิดีโอโดยการมาสก์แพตช์กาลอวกาศเพื่อฝึกโมเดลการรู้จำการกระทำล่วงหน้า (VideoMAE)

การฝึกอบรมล่วงหน้าเกี่ยวกับภาพถ่ายดาวเทียมและภาพถ่ายทางอากาศเพื่อรองรับการทำแผนที่การใช้ที่ดินและการตรวจจับการเปลี่ยนแปลงโดยไม่ต้องใช้ป้ายกำกับด้วยตนเอง

รูปแบบการดำเนินงาน

ตัวเข้ารหัสอัตโนมัติแบบสวมหน้ากากในทางปฏิบัติ

ฝึกอบรม Vision Transformer ล่วงหน้ากับภาพถ่ายหลายล้านภาพที่ไม่มีป้ายกำกับ จากนั้นปรับแต่งอย่างละเอียดสำหรับการจัดประเภท ImageNet ด้วยความแม่นยำระดับสูง

ฝึกอบรม Vision Transformer ล่วงหน้ากับภาพถ่ายที่ไม่มีป้ายกำกับหลายล้านภาพ จากนั้นปรับแต่งอย่างละเอียดสำหรับการจัดประเภท ImageNet ด้วยความแม่นยำระดับสูง ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ตัวเข้ารหัสอัตโนมัติแบบสวมหน้ากากในทางปฏิบัติ

คุณลักษณะการเรียนรู้จากการสแกนทางการแพทย์ที่ไม่มีป้ายกำกับ (X-rays, MRI) ซึ่งคำอธิบายประกอบของผู้เชี่ยวชาญมีราคาแพงและมีจำกัด

คุณลักษณะการเรียนรู้จากการสแกนทางการแพทย์ที่ไม่มีป้ายกำกับ (X-rays, MRI) ซึ่งคำอธิบายประกอบของผู้เชี่ยวชาญมีราคาแพงและมีจำกัด ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ตัวเข้ารหัสอัตโนมัติแบบสวมหน้ากากในทางปฏิบัติ

การปรับวิธีการเข้ากับวิดีโอโดยการมาสก์แพตช์กาลอวกาศเพื่อฝึกโมเดลการจดจำการกระทำ (VideoMAE) ล่วงหน้า

การปรับวิธีการเข้ากับวิดีโอโดยการปิดบังแพตช์กาลอวกาศเพื่อฝึกโมเดลการรู้จำการกระทำ (VideoMAE) ล่วงหน้า ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ตัวเข้ารหัสอัตโนมัติแบบสวมหน้ากากในทางปฏิบัติ

การฝึกอบรมล่วงหน้าเกี่ยวกับภาพถ่ายดาวเทียมและภาพถ่ายทางอากาศเพื่อรองรับการทำแผนที่การใช้ที่ดินและการตรวจจับการเปลี่ยนแปลงโดยไม่ต้องใช้ป้ายกำกับด้วยตนเอง

การฝึกอบรมล่วงหน้าเกี่ยวกับภาพถ่ายดาวเทียมและภาพถ่ายทางอากาศเพื่อรองรับการทำแผนที่การใช้ที่ดินและการตรวจจับการเปลี่ยนแปลงโดยไม่ต้องติดป้ายกำกับด้วยตนเอง ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการผลิตที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน

!

ประสิทธิภาพของโมเดลอาจแตกต่างกันไปตามสภาพแสง ข้อมูลประชากร และสภาพแวดล้อม

!

ผลบวกลวงอาจไม่สังเกตเห็นเว้นแต่จะมีการตรวจสอบเกณฑ์ความเชื่อมั่น

แผนงานการดำเนินงาน

1

กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด

กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง

ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง

เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล

ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป