แบ่งส่วนคู่มือโมเดลอะไรก็ได้

ภาพรวม

Segment Anything Model (SAM) คือ Meta โมเดลพื้นฐานของ AI สำหรับการแบ่งส่วนภาพ: เมื่อพิจารณาจากจุด กล่อง หรือคำใบ้คร่าวๆ มันจะสรุปวัตถุที่เกี่ยวข้องทันที มันถูกสร้างขึ้นเพื่อสรุปวัตถุและภาพที่ไม่เคยเห็นระหว่างการฝึก ทำให้การแบ่งส่วนเป็นงานที่รวดเร็ว

Segment Anything Model เป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์

เจาะลึก

SAM เปิดตัวโดย Meta AI ในปี 2023 โดยจะจัดเฟรมการแบ่งส่วนใหม่เป็นปัญหาที่สามารถแจ้งได้: คุณแจ้งพร้อมท์ (คลิก กล่อง มาสก์ หรือคำใบ้ที่ได้รับจากข้อความ) จากนั้นจะส่งคืนมาสก์ออบเจ็กต์อย่างน้อย 1 รายการ พลังของมันส่วนหนึ่งมาจากขนาด: ได้รับการฝึกฝนบน SA-1B ซึ่งเป็นชุดข้อมูลของมาสก์มากกว่า 1 พันล้านชิ้นจาก 11 ล้านภาพ สร้างขึ้นด้วยเครื่องมือคำอธิบายประกอบแบบ model-in-the-loop ในทางสถาปัตยกรรม SAM มีตัวเข้ารหัสรูปภาพจำนวนมากที่ทำงานหนึ่งครั้งต่อรูปภาพ ตัวเข้ารหัสพรอมต์น้ำหนักเบา และเครื่องถอดรหัสมาสก์ที่รวดเร็ว ดังนั้นรูปภาพที่ฝังตัวเดียวจึงสามารถแสดงพร้อมต์ซ้ำแบบโต้ตอบได้แบบเรียลไทม์ ช่วยให้สามารถถ่ายโอนงานจำนวนมากได้แบบ Zero-shot SAM 2 ซึ่งเปิดตัวในปี 2024 ขยายขอบเขตไปยังวิดีโอ โดยติดตามวัตถุข้ามเฟรม

ข้อมูลเชิงลึกทางเทคนิค

SAM ใช้ตัวเข้ารหัสรูปภาพ Vision Transformer (ViT) ซึ่งมักจะได้รับการฝึกล่วงหน้าด้วยการเข้ารหัสอัตโนมัติแบบมาสก์ เพื่อสร้างการฝังรูปภาพที่มีความหนาแน่นสูง พรอมต์จะถูกเข้ารหัสเป็นโทเค็น และตัวถอดรหัสที่ใช้หม้อแปลงพร้อมฟิวส์แบบสนใจข้ามจะโทเค็นพรอมต์พร้อมรูปภาพที่ฝังอยู่ในมาสก์เอาท์พุตพร้อมคะแนนความเชื่อมั่น เพื่อแก้ไขความคลุมเครือ (การคลิกอาจหมายถึงปุ่ม เสื้อเชิ้ต หรือบุคคล) SAM จะคาดการณ์มาสก์ที่ถูกต้องหลายรายการในคราวเดียว และจัดอันดับมาสก์เหล่านั้น โดยปล่อยให้การใช้งานดาวน์สตรีมหรือข้อความแจ้งเพิ่มเติมคลายความกำกวม

การเรียนรู้ Segment ทุกรูปแบบ

หากต้องการสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Segment Anything Model เป็นเพียงโมเดลการดำเนินงาน ไม่ใช่คุณลักษณะเดียว กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Segment Anything Model จะรักษาสมดุลระหว่างความแม่นยำกับความเป็นจริงในการปฏิบัติงาน เช่น คุณภาพของข้อมูล ความแปรปรวนของแสง และความสม่ำเสมอในการติดฉลาก โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในขณะเดียวกัน สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการแบ่งส่วนโมเดลอะไรก็ได้

SAM ได้กลายเป็นแกนหลักเริ่มต้นสำหรับเครื่องมือคำอธิบายประกอบ การสร้างภาพทางการแพทย์ หุ่นยนต์ และไปป์ไลน์ AR ซึ่งมักจะจับคู่กับตัวตรวจจับหรือโมเดลข้อความสำหรับเวิร์กโฟลว์ 'แบ่งกลุ่มตามชื่อ' ของคำศัพท์แบบเปิด คาดว่าจะมีเวอร์ชันที่เบากว่าและเร็วกว่า (MobileSAM, EfficientSAM) สำหรับการใช้งานบนอุปกรณ์ การบูรณาการที่ลึกซึ้งยิ่งขึ้นกับภาษาสำหรับการแบ่งส่วนที่ขับเคลื่อนด้วยข้อความอย่างสมบูรณ์ และการขยายอย่างต่อเนื่องไปยังวิดีโอและ 3D ในฐานะแบบจำลองพื้นฐาน การฝังของมันจะถูกนำกลับมาใช้ใหม่มากขึ้นเรื่อยๆ เป็นชั้นการรับรู้ที่ป้อนระบบอื่นๆ

การใช้งานจริงในโลกแห่งความเป็นจริง

แพลตฟอร์มคำอธิบายประกอบรูปภาพใช้ SAM เพื่อให้ผู้ติดป้ายกำกับคลิกเพียงครั้งเดียว และสร้างมาสก์ออบเจ็กต์ที่แม่นยำโดยอัตโนมัติ ซึ่งช่วยลดเวลาการติดป้ายกำกับ

นักวิจัยปรับใช้ SAM (เช่น MedSAM) เพื่อร่างโครงร่างอวัยวะและเนื้องอกในการสแกน CT และ MRI

โปรแกรมตัดต่อรูปภาพและวิดีโอผสานรวม SAM เพื่อตัดหัวข้อหรือลบพื้นหลังด้วยการคลิกเพียงครั้งเดียว

SAM 2 ติดตามและแบ่งส่วนวัตถุในเฟรมวิดีโอสำหรับเอฟเฟกต์ AR และการรับรู้ของหุ่นยนต์

รูปแบบการดำเนินงาน

แบ่งส่วนโมเดลอะไรก็ได้ในทางปฏิบัติ

แพลตฟอร์มคำอธิบายประกอบรูปภาพใช้ SAM เพื่อให้ผู้ติดป้ายกำกับคลิกเพียงครั้งเดียว และสร้างมาสก์ออบเจ็กต์ที่แม่นยำโดยอัตโนมัติ ซึ่งช่วยลดเวลาการติดป้ายกำกับ

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

แบ่งส่วนโมเดลอะไรก็ได้ในทางปฏิบัติ

นักวิจัยปรับใช้ SAM (เช่น MedSAM) เพื่อร่างโครงร่างอวัยวะและเนื้องอกในการสแกน CT และ MRI

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

แบ่งส่วนโมเดลอะไรก็ได้ในทางปฏิบัติ

โปรแกรมตัดต่อรูปภาพและวิดีโอผสานรวม SAM เพื่อตัดหัวข้อหรือลบพื้นหลังด้วยการคลิกเพียงครั้งเดียว

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

แบ่งส่วนโมเดลอะไรก็ได้ในทางปฏิบัติ

SAM 2 ติดตามและแบ่งส่วนวัตถุในเฟรมวิดีโอสำหรับเอฟเฟกต์ AR และการรับรู้ของหุ่นยนต์

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน

!

ประสิทธิภาพของโมเดลอาจแตกต่างกันไปตามสภาพแสง ข้อมูลประชากร และสภาพแวดล้อม

!

ผลบวกลวงอาจไม่สังเกตเห็นเว้นแต่จะมีการตรวจสอบเกณฑ์ความเชื่อมั่น

แผนงานการดำเนินงาน

1

กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป

คอมพิวเตอร์วิทัศน์

ทำความเข้าใจระบบพื้นฐานที่ขับเคลื่อน Visual AI

อ่านคู่มือ

การสร้างภาพ AI

สำรวจเวิร์กโฟลว์การสร้างและการแลกเปลี่ยนแบบจำลอง

อ่านคู่มือ

แบ่งส่วนโมเดลอะไรก็ได้

ภาพรวม

เจาะลึก

ข้อมูลเชิงลึกทางเทคนิค

การเรียนรู้ Segment ทุกรูปแบบ

ผลกระทบเชิงกลยุทธ์

อนาคตของการแบ่งส่วนโมเดลอะไรก็ได้

การใช้งานจริงในโลกแห่งความเป็นจริง

รูปแบบการดำเนินงาน

แบ่งส่วนโมเดลอะไรก็ได้ในทางปฏิบัติ

แบ่งส่วนโมเดลอะไรก็ได้ในทางปฏิบัติ

แบ่งส่วนโมเดลอะไรก็ได้ในทางปฏิบัติ

แบ่งส่วนโมเดลอะไรก็ได้ในทางปฏิบัติ

ความเสี่ยงและรั้ว

แผนงานการดำเนินงาน

สำรวจต่อไป

คอมพิวเตอร์วิทัศน์

การสร้างภาพ AI

Related guides