ภาพรวม
Masked Autoencoders (MAE) เป็นวิธีการดูแลตนเองที่สอนโมเดลการมองเห็นเพื่อสร้างภาพขึ้นใหม่หลังจากที่รูปภาพส่วนใหญ่ถูกซ่อนไว้ ด้วยการเรียนรู้ที่จะเติมคำในช่องว่าง แบบจำลองจะสร้างความเข้าใจเชิงภาพที่สมบูรณ์โดยไม่ต้องมีป้ายกำกับของมนุษย์
Masked Autoencoders เป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์
เจาะลึก
โปรแกรมเข้ารหัสอัตโนมัติแบบสวมหน้ากากซึ่งแนะนำโดย Kaiming He และเพื่อนร่วมงานที่ Meta AI ในปี 2021 ถ่ายภาพ แบ่งออกเป็นแพตช์เล็กๆ และสุ่มซ่อนส่วนที่มีขนาดใหญ่มาก ซึ่งมักจะอยู่ที่ 75% ตัวเข้ารหัส Vision Transformer จะประมวลผลเฉพาะแพตช์ที่มองเห็นได้เท่านั้น ในขณะที่ตัวถอดรหัสน้ำหนักเบาจะพยายามสร้างพิกเซลดั้งเดิมของพิกเซลที่หายไปขึ้นมาใหม่ เนื่องจากมีสิ่งที่ซ่อนอยู่มากมาย โมเดลจึงไม่สามารถคัดลอกพิกเซลใกล้เคียงได้ง่ายๆ และต้องเรียนรู้โครงสร้างที่มีความหมาย เช่น รูปร่างและส่วนของวัตถุ ตัวเข้ารหัสที่ข้ามแพตช์ที่สวมหน้ากากทำให้การฝึกทำได้รวดเร็วและหน่วยความจำมีประสิทธิภาพ หลังจากการฝึกล่วงหน้า ตัวถอดรหัสจะถูกละทิ้ง และเครื่องเข้ารหัสจะถ่ายโอนไปยังงานจำแนกประเภท การตรวจจับ และการแบ่งส่วน
ข้อมูลเชิงลึกทางเทคนิค
เคล็ดลับสำคัญคือความไม่สมมาตร: ตัวเข้ารหัสขนาดใหญ่มองเห็นเพียง 25% ของแพตช์ที่ไม่ได้ปกปิดเท่านั้น ในขณะที่ตัวถอดรหัสขนาดเล็กจะสร้างส่วนที่เหลือขึ้นมาใหม่ แพตช์จะแบนราบ ฝังเป็นเส้นตรง และได้รับการเข้ารหัสตามตำแหน่ง การสูญเสียการสร้างใหม่เป็นข้อผิดพลาดกำลังสองเฉลี่ยที่คำนวณเฉพาะบนแพตช์ที่ปิดบัง โดยทั่วไปจะเป็นค่าพิกเซลที่ทำให้เป็นมาตรฐาน อัตราส่วนการมาสก์ที่สูงบังคับให้การเรียนรู้เชิงความหมายมากกว่าการแก้ไขในระดับต่ำ และการข้ามโทเค็นที่มาสก์ในโปรแกรมเปลี่ยนไฟล์จะตัดการประมวลผลอย่างมากเมื่อเทียบกับการประมวลผลภาพเต็ม
การเรียนรู้ตัวเข้ารหัสอัตโนมัติแบบสวมหน้ากาก
Masked Autoencoders (MAE) เป็นวิธีการดูแลตนเองที่สอนโมเดลการมองเห็นเพื่อสร้างภาพขึ้นใหม่หลังจากที่รูปภาพส่วนใหญ่ถูกซ่อนไว้ ด้วยการเรียนรู้ที่จะเติมคำในช่องว่าง แบบจำลองจะสร้างความเข้าใจเชิงภาพที่สมบูรณ์โดยไม่ต้องมีป้ายกำกับของมนุษย์ Masked Autoencoders เป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์ หากต้องการสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Masked Autoencoders เป็นเพียงโมเดลการทำงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ
ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Masked Autoencoders จะรักษาสมดุลระหว่างความแม่นยำกับความเป็นจริงในการปฏิบัติงาน เช่น คุณภาพของข้อมูล ความแปรปรวนของแสง และความสม่ำเสมอในการติดฉลาก โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน
Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในขณะเดียวกัน สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง
ผลกระทบเชิงกลยุทธ์
Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ
Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง
ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก
การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
การใช้งานจริงในโลกแห่งความเป็นจริง
ฝึกอบรม Vision Transformer ล่วงหน้ากับภาพถ่ายที่ไม่มีป้ายกำกับหลายล้านภาพ จากนั้นปรับแต่งอย่างละเอียดสำหรับการจัดหมวดหมู่ ImageNet ด้วยความแม่นยำระดับสูง
คุณลักษณะการเรียนรู้จากการสแกนทางการแพทย์ที่ไม่มีป้ายกำกับ (X-rays, MRI) ซึ่งคำอธิบายประกอบของผู้เชี่ยวชาญมีราคาแพงและมีจำกัด
การปรับวิธีการเข้ากับวิดีโอโดยการมาสก์แพตช์กาลอวกาศเพื่อฝึกโมเดลการรู้จำการกระทำล่วงหน้า (VideoMAE)
การฝึกอบรมล่วงหน้าเกี่ยวกับภาพถ่ายดาวเทียมและภาพถ่ายทางอากาศเพื่อรองรับการทำแผนที่การใช้ที่ดินและการตรวจจับการเปลี่ยนแปลงโดยไม่ต้องใช้ป้ายกำกับด้วยตนเอง
รูปแบบการดำเนินงาน
ตัวเข้ารหัสอัตโนมัติแบบสวมหน้ากากในทางปฏิบัติ
ฝึกอบรม Vision Transformer ล่วงหน้ากับภาพถ่ายหลายล้านภาพที่ไม่มีป้ายกำกับ จากนั้นปรับแต่งอย่างละเอียดสำหรับการจัดประเภท ImageNet ด้วยความแม่นยำระดับสูง
ฝึกอบรม Vision Transformer ล่วงหน้ากับภาพถ่ายที่ไม่มีป้ายกำกับหลายล้านภาพ จากนั้นปรับแต่งอย่างละเอียดสำหรับการจัดประเภท ImageNet ด้วยความแม่นยำระดับสูง ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
ตัวเข้ารหัสอัตโนมัติแบบสวมหน้ากากในทางปฏิบัติ
คุณลักษณะการเรียนรู้จากการสแกนทางการแพทย์ที่ไม่มีป้ายกำกับ (X-rays, MRI) ซึ่งคำอธิบายประกอบของผู้เชี่ยวชาญมีราคาแพงและมีจำกัด
คุณลักษณะการเรียนรู้จากการสแกนทางการแพทย์ที่ไม่มีป้ายกำกับ (X-rays, MRI) ซึ่งคำอธิบายประกอบของผู้เชี่ยวชาญมีราคาแพงและมีจำกัด ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
ตัวเข้ารหัสอัตโนมัติแบบสวมหน้ากากในทางปฏิบัติ
การปรับวิธีการเข้ากับวิดีโอโดยการมาสก์แพตช์กาลอวกาศเพื่อฝึกโมเดลการจดจำการกระทำ (VideoMAE) ล่วงหน้า
การปรับวิธีการเข้ากับวิดีโอโดยการปิดบังแพตช์กาลอวกาศเพื่อฝึกโมเดลการรู้จำการกระทำ (VideoMAE) ล่วงหน้า ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
ตัวเข้ารหัสอัตโนมัติแบบสวมหน้ากากในทางปฏิบัติ
การฝึกอบรมล่วงหน้าเกี่ยวกับภาพถ่ายดาวเทียมและภาพถ่ายทางอากาศเพื่อรองรับการทำแผนที่การใช้ที่ดินและการตรวจจับการเปลี่ยนแปลงโดยไม่ต้องใช้ป้ายกำกับด้วยตนเอง
การฝึกอบรมล่วงหน้าเกี่ยวกับภาพถ่ายดาวเทียมและภาพถ่ายทางอากาศเพื่อรองรับการทำแผนที่การใช้ที่ดินและการตรวจจับการเปลี่ยนแปลงโดยไม่ต้องติดป้ายกำกับด้วยตนเอง ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการผลิตที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
ความเสี่ยงและรั้ว
สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน
ประสิทธิภาพของโมเดลอาจแตกต่างกันไปตามสภาพแสง ข้อมูลประชากร และสภาพแวดล้อม
ผลบวกลวงอาจไม่สังเกตเห็นเว้นแต่จะมีการตรวจสอบเกณฑ์ความเชื่อมั่น
แผนงานการดำเนินงาน
กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด
กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง
ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง
เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล
ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น