คู่มือโมเดล CLIP และ Vision-Language

ภาพรวม

CLIP เป็นแบบจำลองจาก OpenAI ที่เรียนรู้การเชื่อมโยงรูปภาพและข้อความโดยการวางทั้งสองอย่างไว้ในช่องว่างทางคณิตศาสตร์เดียวกัน มันเป็นเครื่องมือเงียบๆ ที่อยู่เบื้องหลังการค้นหารูปภาพ การควบคุมเนื้อหา และเครื่องมือสร้างข้อความเป็นรูปภาพมากมาย

โมเดล CLIP และ Vision-Language เป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์

เจาะลึก

CLIP (การฝึกอบรมล่วงหน้าภาษาและรูปภาพที่ตัดกัน) เปิดตัวในปี 2021 โดยฝึกฝนคู่คำบรรยายภาพประมาณ 400 ล้านคู่ที่คัดลอกมาจากเว็บ ใช้ตัวเข้ารหัสสองตัว ตัวหนึ่งเปลี่ยนรูปภาพให้เป็นเวกเตอร์ อีกตัวเปลี่ยนข้อความเป็นเวกเตอร์ และทั้งสองตัวลงในพื้นที่ฝังที่ใช้ร่วมกัน แบบจำลองเรียนรู้โดยให้รูปถ่ายของสุนัขและคำว่า "รูปถ่ายของสุนัข" นั่งอยู่ใกล้กัน ในขณะที่คู่ที่ไม่ตรงกันจะนั่งห่างกัน วิธีนี้จะปลดล็อกการจัดหมวดหมู่แบบ Zero-shot: ในการติดป้ายกำกับรูปภาพ คุณจะเปรียบเทียบกับคำอธิบายข้อความของหมวดหมู่ผู้สมัคร และเลือกภาพที่ใกล้เคียงที่สุด โดยไม่ต้องฝึกตัวแยกประเภทเฉพาะ CLIP กลายเป็นโครงสร้างพื้นฐานพื้นฐาน นำทางเครื่องกำเนิดภาพ ขับเคลื่อนการค้นหาภาพเชิงความหมาย การกรองชุดข้อมูล และการสร้างโมเดลภาษาวิสัยทัศน์ที่ใหญ่ขึ้นในปัจจุบัน เช่น Flamingo, LLaVA และ GPT-4V

ข้อมูลเชิงลึกทางเทคนิค

CLIP ได้รับการฝึกอบรมโดยมีวัตถุประสงค์เชิงเปรียบเทียบ ในชุดคู่ข้อความรูปภาพ ระบบจะคำนวณความคล้ายคลึงกัน (ผ่านความคล้ายคลึงโคไซน์) ระหว่างทุกภาพและทุกคำบรรยาย จากนั้นจะปรับตัวเข้ารหัสเพื่อเพิ่มคะแนนสูงสุดสำหรับคู่ที่ถูกต้อง และลดคะแนนสำหรับการผสมที่ไม่ถูกต้องทั้งหมด โดยทั่วไปแล้วตัวเข้ารหัสรูปภาพจะเป็น Vision Transformer ซึ่งจะแยกรูปภาพออกเป็นแพตช์ ตัวเข้ารหัสข้อความเป็น Transformer บนโทเค็น เนื่องจากทั้งสองสร้างเวกเตอร์ที่เทียบเคียงได้ คุณจึงสามารถจับคู่รูปภาพกับข้อความใดๆ ได้ทันที

การเรียนรู้โมเดล CLIP และ Vision-Language

เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า CLIP และ Vision-Language Models เป็นเพียงโมเดลการดำเนินงาน ไม่ใช่เพียงฟีเจอร์เดียว กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ CLIP และโมเดลภาษาวิสัยทัศน์จะรักษาสมดุลระหว่างความแม่นยำกับความเป็นจริงในการปฏิบัติงาน เช่น คุณภาพของข้อมูล ความแปรปรวนของแสง และความสม่ำเสมอในการติดฉลาก โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในขณะเดียวกัน สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของโมเดล CLIP และ Vision-Language

การจัดตำแหน่งแบบ CLIP กลายเป็นแบบเอกสารสำเร็จรูปภายในโมเดลหลายรูปแบบขนาดใหญ่ ซึ่งสามารถพูดคุย ให้เหตุผล และตอบคำถามเกี่ยวกับรูปภาพได้ คาดว่าจะมีชุดการฝึกอบรมที่ใหญ่ขึ้นและสะอาดขึ้น รองรับหลายภาษา และขยายไปยังวิดีโอและเสียง นักวิจัยกำลังทำงานเพื่อลดอคติทางสังคมและประชากร CLIP ที่ดูดซับจากข้อมูลเว็บ และเพื่อปรับปรุงความเข้าใจแบบละเอียด (การนับวัตถุ การอ่านข้อความ ความสัมพันธ์เชิงพื้นที่) ซึ่งแบบจำลองที่ตัดกันยังคงอ่อนแอ เมื่อเวอร์ชันเปิดอย่าง OpenCLIP เติบโตเต็มที่ กาวข้อความรูปภาพนี้จะกระจายไปทั่วเครื่องมือค้นหา หุ่นยนต์ และเครื่องมือช่วยการเข้าถึง

การใช้งานจริงในโลกแห่งความเป็นจริง

ค้นหาไลบรารีรูปภาพด้วยวลีที่เป็นธรรมชาติ เช่น "พระอาทิตย์ตกเหนือภูเขา" แทนแท็กชื่อไฟล์

แนะนำตัวสร้างข้อความเป็นรูปภาพเพื่อให้เอาต์พุตตรงกับพร้อมท์ที่ร้องขอ

การแจ้งรูปภาพที่ไม่ปลอดภัยหรือผิดนโยบายโดยเปรียบเทียบกับคำอธิบายข้อความของเนื้อหาที่ถูกแบน

การจัดระเบียบอัตโนมัติหรือใส่คำอธิบายชุดข้อมูลรูปภาพขนาดใหญ่ที่ไม่มีป้ายกำกับสำหรับการวิจัยหรืออีคอมเมิร์ซ

รูปแบบการดำเนินงาน

CLIP และโมเดลภาษาวิสัยทัศน์ในทางปฏิบัติ

ค้นหาไลบรารีรูปภาพด้วยวลีที่เป็นธรรมชาติ เช่น "พระอาทิตย์ตกเหนือภูเขา" แทนแท็กชื่อไฟล์

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

CLIP และโมเดลภาษาวิสัยทัศน์ในทางปฏิบัติ

แนะนำตัวสร้างข้อความเป็นรูปภาพเพื่อให้เอาต์พุตตรงกับพร้อมท์ที่ร้องขอ

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

CLIP และโมเดลภาษาวิสัยทัศน์ในทางปฏิบัติ

การแจ้งรูปภาพที่ไม่ปลอดภัยหรือผิดนโยบายโดยเปรียบเทียบกับคำอธิบายข้อความของเนื้อหาที่ถูกแบน

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

CLIP และโมเดลภาษาวิสัยทัศน์ในทางปฏิบัติ

การจัดระเบียบอัตโนมัติหรือใส่คำอธิบายชุดข้อมูลรูปภาพขนาดใหญ่ที่ไม่มีป้ายกำกับสำหรับการวิจัยหรืออีคอมเมิร์ซ

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน

!

ประสิทธิภาพของโมเดลอาจแตกต่างกันไปตามสภาพแสง ข้อมูลประชากร และสภาพแวดล้อม

!

ผลบวกลวงอาจไม่สังเกตเห็นเว้นแต่จะมีการตรวจสอบเกณฑ์ความเชื่อมั่น

แผนงานการดำเนินงาน

1

กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป

คอมพิวเตอร์วิทัศน์

ทำความเข้าใจระบบพื้นฐานที่ขับเคลื่อน Visual AI

อ่านคู่มือ

การสร้างภาพ AI

สำรวจเวิร์กโฟลว์การสร้างและการแลกเปลี่ยนแบบจำลอง

อ่านคู่มือ

CLIP และโมเดลภาษาวิสัยทัศน์

ภาพรวม

เจาะลึก

ข้อมูลเชิงลึกทางเทคนิค

การเรียนรู้โมเดล CLIP และ Vision-Language

ผลกระทบเชิงกลยุทธ์

อนาคตของโมเดล CLIP และ Vision-Language

การใช้งานจริงในโลกแห่งความเป็นจริง

รูปแบบการดำเนินงาน

CLIP และโมเดลภาษาวิสัยทัศน์ในทางปฏิบัติ

CLIP และโมเดลภาษาวิสัยทัศน์ในทางปฏิบัติ

CLIP และโมเดลภาษาวิสัยทัศน์ในทางปฏิบัติ

CLIP และโมเดลภาษาวิสัยทัศน์ในทางปฏิบัติ

ความเสี่ยงและรั้ว

แผนงานการดำเนินงาน

สำรวจต่อไป

คอมพิวเตอร์วิทัศน์

การสร้างภาพ AI

Related guides