คู่มือวิสัยทัศน์ Transformers

ภาพรวม

Vision Transformers (ViTs) ใช้สถาปัตยกรรมหม้อแปลงที่ขับเคลื่อน ChatGPT กับรูปภาพ โดยถือว่ารูปภาพเป็นลำดับของแพตช์ แทนที่จะเป็นตารางพิกเซล พวกเขาพิสูจน์ให้เห็นว่าคุณไม่จำเป็นต้องมีการโน้มน้าวใจเพื่อให้ได้การจดจำภาพที่ล้ำสมัย

Vision Transformers เป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์

เจาะลึก

เป็นเวลาหลายปีมาแล้วที่โครงข่ายประสาทเทียมแบบหมุนวน (CNN) ครอบงำคอมพิวเตอร์วิทัศน์โดยการสแกนฟิลเตอร์ขนาดเล็กทั่วทั้งภาพ บทความปี 2020 เรื่อง 'รูปภาพมีค่า 16x16 คำ' จาก Google ท้าทายสิ่งนี้ด้วยการตัดรูปภาพเป็นแพตช์คงที่ ซึ่งโดยทั่วไปแล้วจะมีขนาด 16x16 พิกเซล ทำให้แต่ละภาพแบนเป็นเวกเตอร์ และป้อนลำดับผลลัพธ์ลงในหม้อแปลงมาตรฐาน แต่ละแพตช์จะกลายเป็น 'โทเค็น' เหมือนกับคำในประโยค จากนั้น โมเดลจะใช้การเอาใจใส่ในตนเอง ดังนั้นทุกแพตช์จึงสามารถเชื่อมโยงโดยตรงกับแพตช์อื่นๆ ทั้งหมด โดยบันทึกความสัมพันธ์ระยะยาวที่ตัวกรองแบบเกลียวขนาดเล็กไม่สามารถมองเห็นได้ในขั้นตอนเดียว สิ่งที่จับได้: ViT เป็นที่ต้องการข้อมูลเนื่องจากขาดสมมติฐานในตัวของ CNN เมื่อฝึกฝนชุดข้อมูลขนาดมหึมาเช่น JFT-300M พวกเขาจับคู่หรือเอาชนะ CNN ที่ดีที่สุดได้ โดยเปลี่ยนโฉมการวิจัยด้านการมองเห็นสมัยใหม่

ข้อมูลเชิงลึกทางเทคนิค

ViT จะแบ่งรูปภาพออกเป็นแพตช์ที่ไม่ทับซ้อนกัน ฉายแต่ละแพตช์เป็นเส้นตรงในการฝัง และเพิ่มการเข้ารหัสตำแหน่งเพื่อให้โมเดลรู้ว่าแต่ละแพตช์อยู่ที่ใดในรูปภาพต้นฉบับ มีการเติม 'โทเค็นคลาส' ที่สามารถเรียนรู้พิเศษได้ การเป็นตัวแทนขั้นสุดท้ายทำให้เกิดการจำแนกประเภท เลเยอร์การเอาใจใส่ตนเองแบบซ้อนกันช่วยให้แต่ละแพตช์ชั่งน้ำหนักข้อมูลจากแพตช์อื่นๆ ทั้งหมด โดยให้ช่องรับข้อมูลทั่วโลกจากเลเยอร์ที่ 1 เนื่องจากความสนใจจะปรับขนาดเป็นกำลังสองตามจำนวนแพตช์ รูปภาพที่มีความละเอียดสูงจึงมีราคาแพง ซึ่งเป็นเหตุผลว่าทำไมขนาดแพตช์และรูปแบบความสนใจที่มีประสิทธิภาพจึงมีความสำคัญ

การเรียนรู้วิสัยทัศน์ Transformers

หากต้องการสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Vision Transformers เป็นเพียงแบบจำลองการทำงาน ไม่ใช่คุณลักษณะเดียว กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Vision Transformers จะรักษาสมดุลระหว่างความแม่นยำกับความเป็นจริงในการปฏิบัติงาน เช่น คุณภาพของข้อมูล ความแปรปรวนของแสง และความสม่ำเสมอในการติดฉลาก โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในขณะเดียวกัน สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของวิสัยทัศน์ Transformers

ขณะนี้ ViT และหม้อแปลงลูกผสมของ CNN ขับเคลื่อนระบบการมองเห็นชั้นนำ และสถาปัตยกรรมก็สนับสนุนโมเดลหลายรูปแบบที่หลอมรวมรูปภาพเข้ากับข้อความ เช่น CLIP และระบบช่วยด้านภาษาการมองเห็นสมัยใหม่ คาดหวังการทำงานอย่างต่อเนื่องในการทำให้ความสนใจถูกลงสำหรับความละเอียดสูงและวิดีโอ บวกกับการฝึกอบรมล่วงหน้าแบบมีผู้ดูแลด้วยตนเอง (เช่น การสร้างแบบจำลองภาพพราง) ซึ่งจะช่วยลดความอยากข้อมูลที่มีป้ายกำกับจำนวนมหาศาล เมื่อการประมวลผลเติบโตขึ้น เส้นแบ่งระหว่าง 'แบบจำลองภาษา' และ 'แบบจำลองการมองเห็น' ก็เริ่มเบลอ โดยหม้อแปลงทำหน้าที่เป็นแกนหลักที่ใช้ร่วมกันในรูปแบบต่างๆ แทนที่จะแยกการออกแบบเฉพาะทาง

การใช้งานจริงในโลกแห่งความเป็นจริง

Google การจัดหมวดหมู่รูปภาพและระบบจัดอันดับการค้นหาที่ใช้แกนหลักของหม้อแปลงหลังจาก ViT พิสูจน์ให้เห็นว่าสามารถแข่งขันกับ CNN ได้

CLIP และโมเดลข้อความรูปภาพอื่นๆ ที่ใช้ ViT ในการเข้ารหัสรูปภาพ เพื่อให้สามารถจับคู่รูปภาพและคำบรรยายในพื้นที่ที่ใช้ร่วมกันได้

การวิจัยด้านภาพทางการแพทย์โดยใช้ ViT เพื่อระบุรูปแบบในการสแกนทั้งหมด ไม่ใช่แค่พื้นผิวเฉพาะที่

การรับรู้แบบขับเคลื่อนด้วยตนเองและหุ่นยนต์ที่ผสมผสานความสนใจแบบ ViT เพื่อการทำความเข้าใจฉากในขอบเขตการมองเห็นทั้งหมด

รูปแบบการดำเนินงาน

วิสัยทัศน์ Transformers ในทางปฏิบัติ

Google การจัดหมวดหมู่รูปภาพและระบบจัดอันดับการค้นหาที่ใช้แกนหลักของหม้อแปลงหลังจาก ViT พิสูจน์ว่าสามารถแข่งขันกับ CNN ได้

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

วิสัยทัศน์ Transformers ในทางปฏิบัติ

CLIP และโมเดลข้อความรูปภาพอื่นๆ ที่ใช้ ViT ในการเข้ารหัสรูปภาพ เพื่อให้สามารถจับคู่รูปภาพและคำบรรยายในพื้นที่ที่ใช้ร่วมกันได้

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

วิสัยทัศน์ Transformers ในทางปฏิบัติ

การวิจัยด้านภาพทางการแพทย์โดยใช้ ViT เพื่อระบุรูปแบบในการสแกนทั้งหมด ไม่ใช่แค่พื้นผิวเฉพาะที่

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

วิสัยทัศน์ Transformers ในทางปฏิบัติ

การรับรู้แบบขับเคลื่อนด้วยตนเองและหุ่นยนต์ที่ผสมผสานความสนใจแบบ ViT เพื่อการทำความเข้าใจฉากในขอบเขตการมองเห็นทั้งหมด

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน

!

ประสิทธิภาพของโมเดลอาจแตกต่างกันไปตามสภาพแสง ข้อมูลประชากร และสภาพแวดล้อม

!

ผลบวกลวงอาจไม่สังเกตเห็นเว้นแต่จะมีการตรวจสอบเกณฑ์ความเชื่อมั่น

แผนงานการดำเนินงาน

1

กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป

คอมพิวเตอร์วิทัศน์

ทำความเข้าใจระบบพื้นฐานที่ขับเคลื่อน Visual AI

อ่านคู่มือ

การสร้างภาพ AI

สำรวจเวิร์กโฟลว์การสร้างและการแลกเปลี่ยนแบบจำลอง

อ่านคู่มือ

วิสัยทัศน์หม้อแปลง

ภาพรวม

เจาะลึก

ข้อมูลเชิงลึกทางเทคนิค

การเรียนรู้วิสัยทัศน์ Transformers

ผลกระทบเชิงกลยุทธ์

อนาคตของวิสัยทัศน์ Transformers

การใช้งานจริงในโลกแห่งความเป็นจริง

รูปแบบการดำเนินงาน

วิสัยทัศน์ Transformers ในทางปฏิบัติ

วิสัยทัศน์ Transformers ในทางปฏิบัติ

วิสัยทัศน์ Transformers ในทางปฏิบัติ

วิสัยทัศน์ Transformers ในทางปฏิบัติ

ความเสี่ยงและรั้ว

แผนงานการดำเนินงาน

สำรวจต่อไป

คอมพิวเตอร์วิทัศน์

การสร้างภาพ AI

Related guides