คู่มือ AI แบบเห็นภาพ

โมเดลการมองเห็น-ภาษา-การกระทำสำหรับวิทยาการหุ่นยนต์

โมเดล Vision-Language-Action (VLA) เป็นโครงข่ายประสาทเทียมขนาดใหญ่ที่ถ่ายภาพจากกล้องพร้อมคำแนะนำที่เป็นลายลักษณ์อักษรและส่งออกคำสั่งมอเตอร์หุ่นยนต์โดยตรง

ภาพรวม

โมเดล Vision-Language-Action (VLA) เป็นโครงข่ายประสาทเทียมขนาดใหญ่ที่ถ่ายภาพจากกล้องพร้อมคำแนะนำที่เป็นลายลักษณ์อักษรและส่งออกคำสั่งมอเตอร์หุ่นยนต์โดยตรง สิ่งเหล่านี้มีความสำคัญเพราะพวกเขานำสามัญสำนึกที่กว้างขวางของแบบจำลองพื้นฐานมาสู่เครื่องจักรทางกายภาพ โดยปล่อยให้แบบจำลองหนึ่งตัวควบคุมหุ่นยนต์ในงานต่างๆ มากมาย แทนที่จะเขียนโค้ดแต่ละพฤติกรรมด้วยมือ

โมเดล Vision-Language-Action สำหรับวิทยาการหุ่นยนต์อยู่ในเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์

เจาะลึก

แบบจำลอง VLA หลอมรวมสามกระแส: การมองเห็น (เฟรมกล้อง) ภาษา (เป้าหมายเช่น 'วางถ้วยลงในอ่างล้างจาน') และการกระทำ (มุมที่ข้อต่อ การเปิด/ปิดของกริปเปอร์ หรือความเร็วของเอฟเฟกต์ที่ปลาย) Google RT-2 ของ DeepMind ถือเป็นจุดสังเกต โดยต้องใช้โมเดลภาษาการมองเห็นที่ฝึกฝนเกี่ยวกับรูปภาพและข้อความบนเว็บ จากนั้นจึงปรับแต่งร่วมกันบนวิถีการเคลื่อนที่ของหุ่นยนต์ เพื่อให้เป็นเครือข่ายเดียวกันที่สามารถตอบได้ว่า 'นี่คือผลไม้อะไร' ยังส่งเสียงการกระทำที่โทเค็นเป็นข้อความด้วย โมเดลเปิดเช่น OpenVLA (พารามิเตอร์ 7B) และ pi-0 ของ Physical Intelligence ตามมา สิ่งสำคัญที่สุดคือ โมเดลเหล่านี้แสดงให้เห็นถึงการถ่ายโอนแบบ 'ฉุกเฉิน': ความรู้ทางเว็บ (การจดจำโลโก้ของแบรนด์ การทำความเข้าใจ 'โลโก้ที่เล็กกว่า') นำไปสู่การยักยอก ดังนั้นหุ่นยนต์จึงสรุปกับวัตถุและคำแนะนำที่ไม่เคยเห็นในระหว่างการฝึกหุ่นยนต์

ข้อมูลเชิงลึกทางเทคนิค

VLA จำนวนมากแยกการกระทำที่ต่อเนื่องออกเป็นโทเค็น เพื่อให้หม้อแปลงสามารถคาดเดาการกระทำเหล่านั้นแบบถดถอยอัตโนมัติ เช่นเดียวกับคำพูด RT-2 แมปแต่ละมิติการกระทำกับหนึ่งใน 256 ถังขยะ และปล่อยเป็นสตริงข้อความ การออกแบบที่ใหม่กว่าเช่น pi-0 ติดหัว 'ผู้เชี่ยวชาญด้านการดำเนินการ' ที่แพร่กระจายหรือจับคู่การไหลเข้ากับกระดูกสันหลังของภาษาการมองเห็นที่แช่แข็ง สร้างชิ้นส่วนการกระทำความถี่สูงที่ราบรื่น (เช่น 50 Hz) แทนที่จะเป็นขั้นตอนเดียวที่แยกจากกัน ปรับปรุงความคล่องแคล่ว

การเรียนรู้แบบจำลองการมองเห็น ภาษา การกระทำสำหรับวิทยาการหุ่นยนต์

โมเดล Vision-Language-Action (VLA) เป็นโครงข่ายประสาทเทียมขนาดใหญ่ที่ถ่ายภาพจากกล้องพร้อมคำแนะนำที่เป็นลายลักษณ์อักษรและส่งออกคำสั่งมอเตอร์หุ่นยนต์โดยตรง สิ่งเหล่านี้มีความสำคัญเพราะพวกเขานำสามัญสำนึกที่กว้างขวางของแบบจำลองพื้นฐานมาสู่เครื่องจักรทางกายภาพ โดยปล่อยให้แบบจำลองหนึ่งตัวควบคุมหุ่นยนต์ในงานต่างๆ มากมาย แทนที่จะเขียนโค้ดแต่ละพฤติกรรมด้วยมือ โมเดล Vision-Language-Action สำหรับวิทยาการหุ่นยนต์อยู่ในเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์ เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่าโมเดลการมองเห็น ภาษา การดำเนินการสำหรับวิทยาการหุ่นยนต์เป็นแบบจำลองการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังคงต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้โมเดลการมองเห็น-ภาษา-การกระทำสำหรับวิทยาการหุ่นยนต์จะรักษาสมดุลระหว่างความแม่นยำกับความเป็นจริงในการปฏิบัติงาน เช่น คุณภาพของข้อมูล ความแปรปรวนของแสง และความสม่ำเสมอในการติดฉลาก โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในขณะเดียวกัน สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของแบบจำลองการมองเห็น ภาษา การกระทำสำหรับวิทยาการหุ่นยนต์

คาดว่าจะมีชุดข้อมูลข้ามรูปลักษณ์ที่ใหญ่กว่า (ความพยายามของ Open X-Embodiment ได้รวบรวมข้อมูลจากหุ่นยนต์มากกว่า 22 ประเภทแล้ว) ดังนั้นโมเดลหนึ่งจึงขับเคลื่อนแขน หุ่นยนต์ฮิวแมนนอยด์ และฐานเคลื่อนที่ การวิจัยผลักดันไปสู่การอนุมานที่รวดเร็วยิ่งขึ้นสำหรับการควบคุมแบบเรียลไทม์ อินพุต 3 มิติและสัมผัสที่สมบูรณ์ยิ่งขึ้น และห่วงโซ่การให้เหตุผลที่โมเดล 'คิด' ก่อนดำเนินการ เป้าหมายคือนโยบายทั่วไปเดียวที่คุณสามารถแจ้งเป็นภาษาอังกฤษธรรมดา พร้อมการแก้ไขได้ทันที เหมือนกับการพูดคุยกับผู้ช่วย

การใช้งานจริงในโลกแห่งความเป็นจริง

RT-2 ควบคุมหุ่นยนต์ในครัว Google เพื่อ 'ย้ายกล้วยไปที่หมายเลข 3' โดยใช้ตัวเลขที่เรียนรู้จากข้อความเว็บ ไม่ใช่การสาธิตหุ่นยนต์

OpenVLA ซึ่งเป็นโมเดลโอเพ่นซอร์ส 7B ได้รับการปรับแต่งโดยห้องปฏิบัติการเพื่อดำเนินการเลือกและวางบนโต๊ะบนแขนที่มีต้นทุนต่ำ

การซักผ้าแบบพับ pi-0 ของ Physical Intelligence และการเคลียร์โต๊ะโดยการเชื่อมโยงทักษะย่อยมากมายจากคำสั่งเดียว

แขนโกดังบอกว่า 'เลือกสิ่งของที่เปราะบางที่สุด' และอนุมานได้ว่าวัตถุใดที่มาจากรูปลักษณ์ภายนอก

รูปแบบการดำเนินงาน

โมเดลการมองเห็น-ภาษา-การกระทำสำหรับวิทยาการหุ่นยนต์ในทางปฏิบัติ

RT-2 ควบคุมหุ่นยนต์ในครัว Google เพื่อ 'ย้ายกล้วยไปที่หมายเลข 3' โดยใช้ตัวเลขที่เรียนรู้จากข้อความเว็บ ไม่ใช่การสาธิตหุ่นยนต์

RT-2 ควบคุมหุ่นยนต์ในครัว Google เพื่อ 'ย้ายกล้วยไปที่หมายเลข 3' โดยใช้ตัวเลขที่เรียนรู้จากข้อความเว็บ ไม่ใช่การสาธิตหุ่นยนต์ โดยปกติแล้วทีมจะได้ผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

โมเดลการมองเห็น-ภาษา-การกระทำสำหรับวิทยาการหุ่นยนต์ในทางปฏิบัติ

OpenVLA ซึ่งเป็นโมเดลโอเพ่นซอร์ส 7B ได้รับการปรับแต่งโดยห้องปฏิบัติการเพื่อดำเนินการเลือกและวางบนโต๊ะบนระบบที่มีต้นทุนต่ำ

OpenVLA ซึ่งเป็นโมเดลโอเพ่นซอร์ส 7B ที่ได้รับการปรับแต่งอย่างดีโดยห้องปฏิบัติการเพื่อเรียกใช้การเลือกและวางบนโต๊ะด้วยอาวุธที่มีต้นทุนต่ำ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

โมเดลการมองเห็น-ภาษา-การกระทำสำหรับวิทยาการหุ่นยนต์ในทางปฏิบัติ

การซักผ้าแบบพับ pi-0 ของ Physical Intelligence และการเคลียร์โต๊ะโดยการเชื่อมโยงทักษะย่อยมากมายจากคำสั่งเดียว

การซักผ้าแบบพับ pi-0 ของ Physical Intelligence และการเคลียร์โต๊ะโดยการเชื่อมโยงทักษะย่อยจำนวนมากจากคำสั่งเดียว ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

โมเดลการมองเห็น-ภาษา-การกระทำสำหรับวิทยาการหุ่นยนต์ในทางปฏิบัติ

แขนโกดังบอกว่า 'เลือกสิ่งของที่เปราะบางที่สุด' และอนุมานได้ว่าวัตถุใดที่มาจากรูปลักษณ์ภายนอก

แขนคลังสินค้าบอกให้ 'เลือกสินค้าที่เปราะบางที่สุด' และอนุมานว่าวัตถุใดที่มาจากรูปลักษณ์ภายนอก ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการผลิตที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน

!

ประสิทธิภาพของโมเดลอาจแตกต่างกันไปตามสภาพแสง ข้อมูลประชากร และสภาพแวดล้อม

!

ผลบวกลวงอาจไม่สังเกตเห็นเว้นแต่จะมีการตรวจสอบเกณฑ์ความเชื่อมั่น

แผนงานการดำเนินงาน

1

กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด

กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง

ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง

เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล

ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป