คู่มือทางเทคนิค

การเสริม Mixup และ CutMix

Mixup และ CutMix เป็นวิธีการเพิ่มข้อมูลที่สร้างตัวอย่างการฝึกอบรมใหม่โดยการผสมผสานรูปภาพสองภาพและป้ายกำกับเข้าด้วยกัน

ภาพรวม

Mixup และ CutMix เป็นวิธีการเพิ่มข้อมูลที่สร้างตัวอย่างการฝึกอบรมใหม่โดยการผสมผสานรูปภาพสองภาพและป้ายกำกับเข้าด้วยกัน Mixup จะสอดแทรกรูปภาพและป้ายกำกับทั้งหมดเป็นเส้นตรง ในขณะที่ CutMix จะวางแพตช์สี่เหลี่ยมจากรูปภาพหนึ่งไปยังอีกรูปภาพหนึ่ง และผสมป้ายกำกับตามพื้นที่ของแพตช์ ซึ่งทั้งลดการติดตั้งมากเกินไปและปรับปรุงความทนทาน

Mixup และ CutMix Augmentation เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง

เจาะลึก

Mixup (Zhang et al., 2017) สร้างตัวอย่างใหม่เป็น x̃ = แล·x_a + (1−แล)·x_b โดยมีป้ายกำกับ ỹ ผสมด้วย แลมเดียวกัน โดยที่ แล ถูกดึงมาจากการแจกแจงแบบเบต้า สิ่งนี้สนับสนุนให้แบบจำลองทำงานเป็นเส้นตรงระหว่างตัวอย่าง ทำให้ขอบเขตการตัดสินใจราบรื่นขึ้น และปรับปรุงการสอบเทียบ CutMix (Yun et al., 2019) จะตัดพื้นที่สี่เหลี่ยมจากรูปภาพ B และวางลงบนรูปภาพ A แทน น้ำหนักของป้ายกำกับถูกกำหนดตามสัดส่วนของพิกเซลที่แต่ละภาพมีส่วนร่วม เนื่องจาก CutMix รักษาขอบเขตของภาพที่สอดคล้องกันในเครื่อง (แทนที่จะผสมแบบน่ากลัว) จึงรักษาโครงสร้างเชิงพื้นที่ที่มีประโยชน์ในขณะที่ยังคงบังคับให้โมเดลสนใจวัตถุและชิ้นส่วนหลายชิ้น เทคนิคทั้งสองทำหน้าที่เป็นตัวกำหนดมาตรฐานที่แข็งแกร่ง เพิ่มความแม่นยำในการวัดประสิทธิภาพระดับ ImageNet และปรับปรุงความทนทานต่อความเสียหายและอินพุตของฝ่ายตรงข้ามอย่างเห็นได้ชัด

ข้อมูลเชิงลึกทางเทคนิค

ทั้งสองวิธีแก้ไขเป้าหมายการสูญเสีย ไม่ใช่แค่อินพุต ฉลากกลายเป็นเป้าหมายแบบอ่อนและผสมกัน ดังนั้นการสูญเสียข้ามเอนโทรปีจึงเป็นการผสมผสานแบบถ่วงน้ำหนัก แลมของสองคลาส ซึ่งเป็นรูปแบบหนึ่งของการปรับฉลากให้เรียบซึ่งเชื่อมโยงกับอัตราส่วนการผสมพิกเซลอย่างมีประสิทธิภาพ ใน CutMix แล เท่ากับเศษส่วนของพิกเซลที่ไม่เปลี่ยนแปลง ซึ่งคำนวณจากพื้นที่กล่องตัดหารด้วยพื้นที่ภาพทั้งหมด ซึ่งทำให้สัดส่วนป้ายกำกับสอดคล้องกับจำนวนภาพแต่ละภาพที่มองเห็นได้

การเรียนรู้ Mixup และ CutMix Augmentation

Mixup และ CutMix เป็นวิธีการเพิ่มข้อมูลที่สร้างตัวอย่างการฝึกอบรมใหม่โดยการผสมผสานรูปภาพสองภาพและป้ายกำกับเข้าด้วยกัน Mixup จะสอดแทรกรูปภาพและป้ายกำกับทั้งหมดเป็นเส้นตรง ในขณะที่ CutMix จะวางแพตช์สี่เหลี่ยมจากรูปภาพหนึ่งไปยังอีกรูปภาพหนึ่ง และผสมป้ายกำกับตามพื้นที่ของแพตช์ ซึ่งทั้งลดการติดตั้งมากเกินไปและปรับปรุงความทนทาน Mixup และ CutMix Augmentation เป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Mixup และ CutMix Augmentation เป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Mixup และ CutMix Augmentation จะปรับสถาปัตยกรรม ข้อมูล และตัวเลือกโครงสร้างพื้นฐานให้เหมาะสมโดยเทียบกับความน่าเชื่อถือและต้นทุน โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในเวลาเดียวกัน การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการเสริม Mixup และ CutMix

ขณะนี้การเพิ่มแบบผสมเป็นมาตรฐานในสูตรการจำแนกประเภทภาพที่แข็งแกร่ง และสนับสนุนไปป์ไลน์การฝึกอบรมที่ทันสมัยสำหรับตัวแปลงการมองเห็น ซึ่งมักต้องมีการปรับมาตรฐานอย่างหนัก การวิจัยยังคงดำเนินต่อไปเกี่ยวกับตัวแปรที่คำนึงถึงความโดดเด่น (เช่น การตัดพื้นที่ที่ให้ข้อมูล) การผสมระดับโทเค็นสำหรับหม้อแปลง และส่วนขยายของเสียง ข้อความ และข้อมูล 3 มิติ คาดว่ากลยุทธ์การผสมผสานจะยังคงเป็นต้นทุนที่ต่ำในการเพิ่มความแม่นยำ การสอบเทียบ และความทนทาน ในขณะที่สถาปัตยกรรมต้องการข้อมูลมากขึ้น

การใช้งานจริงในโลกแห่งความเป็นจริง

การฝึกอบรมตัวแยกประเภท ImageNet ด้วย CutMix เพื่อเพิ่มความแม่นยำอันดับ 1 และปรับปรุงการแปลออบเจ็กต์

การใช้ Mixup เพื่อปรับปรุงการสอบเทียบโมเดล ดังนั้นความเชื่อมั่นที่คาดการณ์ไว้จะตรงกับความแม่นยำที่แท้จริงมากขึ้น

ปรับวิชันทรานส์ฟอร์มเมอร์ให้เป็นมาตรฐานอย่างมาก (เช่น DeiT) ด้วยการผสมผสาน Mixup และ CutMix เพื่อฝึกฝนกับข้อมูลที่จำกัด

เพิ่มความทนทานต่อความเสียหายของภาพและอินพุตที่ไม่กระจายในระบบการมองเห็นที่มีความสำคัญด้านความปลอดภัย

รูปแบบการดำเนินงาน

Mixup และ CutMix Augmentation ในทางปฏิบัติ

การฝึกอบรมตัวแยกประเภท ImageNet ด้วย CutMix เพื่อเพิ่มความแม่นยำอันดับ 1 และปรับปรุงการแปลออบเจ็กต์

การฝึกอบรมตัวแยกประเภท ImageNet ด้วย CutMix เพื่อเพิ่มความแม่นยำอันดับ 1 และปรับปรุงการแปลออบเจ็กต์ให้เป็นภาษาท้องถิ่น ทีมมักจะได้รับผลลัพธ์ที่ดีขึ้นเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Mixup และ CutMix Augmentation ในทางปฏิบัติ

การใช้ Mixup เพื่อปรับปรุงการสอบเทียบโมเดล ดังนั้นความเชื่อมั่นที่คาดการณ์ไว้จะตรงกับความแม่นยำที่แท้จริงมากขึ้น

การใช้ Mixup เพื่อปรับปรุงการสอบเทียบโมเดล ดังนั้นความเชื่อมั่นที่คาดการณ์ไว้จะตรงกับความแม่นยำที่แท้จริงมากกว่า ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Mixup และ CutMix Augmentation ในทางปฏิบัติ

ปรับวิชันทรานส์ฟอร์มเมอร์ให้เป็นมาตรฐานอย่างมาก (เช่น DeiT) ด้วยการผสมผสาน Mixup และ CutMix เพื่อฝึกฝนกับข้อมูลที่จำกัด

การปรับวิชันทรานส์ฟอร์มเมอร์อย่างสม่ำเสมอ (เช่น DeiT) ด้วยการผสมผสาน Mixup และ CutMix เพื่อฝึกฝนกับข้อมูลที่จำกัด ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Mixup และ CutMix Augmentation ในทางปฏิบัติ

เพิ่มความทนทานต่อความเสียหายของภาพและอินพุตที่ไม่กระจายในระบบการมองเห็นที่มีความสำคัญด้านความปลอดภัย

การเพิ่มความคงทนต่อความเสียหายของภาพและอินพุตที่ไม่กระจายในระบบการมองเห็นที่มีความสำคัญด้านความปลอดภัย ทีมมักจะได้รับผลลัพธ์ที่ดีขึ้นเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการผลิตที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้

!

ต้นทุนโครงสร้างพื้นฐานและการบำรุงรักษามักถูกประเมินต่ำไป

!

ช่องว่างด้านความปลอดภัยและความสามารถในการสังเกตสามารถเพิ่มขึ้นได้เมื่อระบบมีความซับซ้อนมากขึ้น

แผนงานการดำเนินงาน

1

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป