دليل الذكاء الاصطناعي المرئي

نماذج الرؤية واللغة والعمل للروبوتات

نماذج الرؤية واللغة والعمل (VLA) عبارة عن شبكات عصبية كبيرة تلتقط صور الكاميرا بالإضافة إلى تعليمات مكتوبة وتخرج أوامر محرك الروبوت مباشرة.

نظرة عامة

نماذج الرؤية واللغة والعمل (VLA) عبارة عن شبكات عصبية كبيرة تلتقط صور الكاميرا بالإضافة إلى تعليمات مكتوبة وتخرج أوامر محرك الروبوت مباشرة. إنها مهمة لأنها تجلب الحس السليم الواسع للنماذج الأساسية إلى الآلات المادية، مما يسمح لنموذج واحد بالتحكم في الروبوت عبر العديد من المهام بدلاً من ترميز كل سلوك يدويًا.

تنتمي نماذج الرؤية واللغة والعمل للروبوتات إلى سير عمل الرؤية الحاسوبية التي تفسر أو تولد وسائط مرئية للتحليل والعمليات والإبداع.

الغوص العميق

يدمج نموذج VLA ثلاثة تيارات: الرؤية (إطارات الكاميرا)، واللغة (هدف مثل "وضع الكأس في الحوض")، والعمل (زوايا المفصل، أو فتح/إغلاق المقبض، أو سرعات المؤثر النهائي). Google كان جهاز RT-2 الخاص بـ DeepMind علامة فارقة: فقد استخدم نموذجًا للغة الرؤية تم تدريبه على صور الويب والنصوص، ثم قام بضبطه بشكل مشترك على مسارات الروبوت بحيث يمكن لنفس الشبكة الإجابة على "ما هذه الفاكهة؟" يصدر أيضًا إجراءات رمزية كنص. تم اتباع نماذج مفتوحة مثل OpenVLA (معلمات 7B) وpi-0 للذكاء الطبيعي. والأهم من ذلك، أن هذه النماذج تُظهر نقلًا "ناشئًا": حيث تؤدي معرفة الويب (التعرف على شعار العلامة التجارية، وفهم "الشعار الأصغر") إلى التلاعب، بحيث يقوم الروبوت بتعميم الأشياء والتعليمات التي لم يراها مطلقًا أثناء تدريب الروبوت.

البصيرة الفنية

تقوم العديد من VLAs بفصل الإجراءات المستمرة إلى رموز مميزة حتى يتمكن المحول من التنبؤ بها بشكل انحداري، تمامًا مثل الكلمات. يقوم RT-2 بتعيين كل بُعد إجراء إلى واحدة من 256 حاوية وإصدارها كسلسلة نصية. التصميمات الأحدث مثل pi-0 تربط رأس "خبير الحركة" المنتشر أو المطابق للتدفق بالعمود الفقري للغة الرؤية المجمدة، مما يولد قطع حركة سلسة عالية التردد (على سبيل المثال، 50 هرتز) بدلاً من الخطوات المنفصلة الفردية، مما يحسن البراعة.

إتقان نماذج الرؤية واللغة والعمل للروبوتات

نماذج الرؤية واللغة والعمل (VLA) عبارة عن شبكات عصبية كبيرة تلتقط صور الكاميرا بالإضافة إلى تعليمات مكتوبة وتخرج أوامر محرك الروبوت مباشرة. إنها مهمة لأنها تجلب الحس السليم الواسع للنماذج الأساسية إلى الآلات المادية، مما يسمح لنموذج واحد بالتحكم في الروبوت عبر العديد من المهام بدلاً من ترميز كل سلوك يدويًا. تنتمي نماذج الرؤية واللغة والعمل للروبوتات إلى سير عمل الرؤية الحاسوبية التي تفسر أو تولد وسائط مرئية للتحليل والعمليات والإبداع. لبناء فهم عميق، تعامل مع نماذج الرؤية واللغة والعمل للروبوتات كنموذج تشغيلي، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تعمل الفرق القوية التي تستخدم نماذج الرؤية واللغة والعمل للروبوتات على موازنة الدقة مع الحقائق التشغيلية مثل جودة البيانات، وتباين الإضاءة، واتساق الملصقات. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع. وفي الوقت نفسه، يمكن أن تصبح حقوق الصور والموافقة مخاطر قانونية إذا كان المصدر غير واضح. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع.

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن للفرق الإبداعية إنشاء نماذج أولية للمفاهيم بشكل أسرع مع عدد أقل من المراجعات اليدوية.

يمكن للفرق الإبداعية إنشاء نماذج أولية للمفاهيم بشكل أسرع مع عدد أقل من المراجعات اليدوية. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن أن تستخدم العمليات إشارات الصور والفيديو التي كان من الصعب معالجتها في السابق.

يمكن أن تستخدم العمليات إشارات الصور والفيديو التي كان من الصعب معالجتها في السابق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل نماذج الرؤية واللغة والعمل للروبوتات

توقع مجموعات بيانات أكبر للتجسيد المتقاطع (تقوم جهود Open X-Embodiment بالفعل بتجميع البيانات من أكثر من 22 نوعًا من الروبوتات) بحيث يقوم نموذج واحد بتشغيل الأذرع والبشر والقواعد المتنقلة. يدفع البحث نحو استنتاج أسرع للتحكم في الوقت الفعلي، ومدخلات ثلاثية الأبعاد وملموسة أكثر ثراءً، وسلاسل تفكير حيث "يفكر" النموذج قبل التصرف. الهدف هو سياسة عامة واحدة يمكنك المطالبة بها باللغة الإنجليزية البسيطة، مع التصحيح الفوري، تمامًا مثل الدردشة مع أحد المساعدين.

التنفيذ في العالم الحقيقي

RT-2 يتحكم في روبوت المطبخ Google "لتحريك الموزة إلى الرقم 3" باستخدام الأرقام التي تعلمها من نص الويب، وليس العروض التوضيحية للروبوت

OpenVLA، نموذج 7B مفتوح المصدر، تم ضبطه بدقة بواسطة المختبرات لتشغيل عملية الاختيار والمكان على سطح الطاولة على أذرع منخفضة التكلفة

الغسيل القابل للطي pi-0 الخاص بالذكاء الفيزيائي ومسح الطاولة عن طريق ربط العديد من المهارات الفرعية من تعليمات واحدة

أخبرني ذراع المستودع "اختر العنصر الأكثر هشاشة" واستدل على الشيء من مظهره البصري

أنماط التنفيذ

نماذج الرؤية واللغة والعمل للروبوتات في الممارسة العملية

يتحكم RT-2 في روبوت المطبخ Google "لتحريك الموزة إلى الرقم 3" باستخدام الأرقام التي تعلمها من نص الويب، وليس العروض التوضيحية للروبوت.

RT-2 يتحكم في روبوت المطبخ Google "لتحريك الموزة إلى الرقم 3" باستخدام الأرقام التي تعلمها من نص الويب، وليس العروض التوضيحية للروبوت. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الخطأ مع مرور الوقت.

نماذج الرؤية واللغة والعمل للروبوتات في الممارسة العملية

OpenVLA، وهو نموذج 7B مفتوح المصدر، تم ضبطه بدقة بواسطة المختبرات لتشغيل عملية الاختيار والمكان على سطح الطاولة على أذرع منخفضة التكلفة.

OpenVLA، وهو نموذج 7B مفتوح المصدر، تم ضبطه بدقة بواسطة المختبرات لتشغيل الانتقاء والوضع على أذرع منخفضة التكلفة. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

نماذج الرؤية واللغة والعمل للروبوتات في الممارسة العملية

الغسيل القابل للطي pi-0 الخاص بالذكاء الفيزيائي ومسح الطاولة عن طريق ربط العديد من المهارات الفرعية من تعليمات واحدة.

الغسيل القابل للطي pi-0 الخاص بالذكاء الفيزيائي ومسح الطاولة عن طريق ربط العديد من المهارات الفرعية من تعليمات واحدة عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

نماذج الرؤية واللغة والعمل للروبوتات في الممارسة العملية

أخبرني ذراع المستودع "اختر العنصر الأكثر هشاشة" واستدل على الشيء من مظهره البصري.

يخبرني أحد أعضاء المستودعات "اختر العنصر الأكثر هشاشة" واستدل على الكائن من مظهره المرئي. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

يمكن أن تصبح حقوق الصور والموافقة مخاطر قانونية إذا كان المصدر غير واضح.

!

يمكن أن يختلف أداء النموذج عبر الإضاءة والتركيبة السكانية والبيئات.

!

قد تمر الإيجابيات الكاذبة دون أن يلاحظها أحد ما لم تتم مراقبة عتبات الثقة.

خارطة طريق التنفيذ

1

تحديد معايير القبول لتكاليف الدقة والاستدعاء والخطأ.

تحديد معايير القبول لتكاليف الدقة والاستدعاء والخطأ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

اختبار مع البيانات التي تتوافق مع ظروف الإنتاج الحقيقية.

اختبار مع البيانات التي تتوافق مع ظروف الإنتاج الحقيقية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

أضف مراجعة بشرية للتنبؤات منخفضة الثقة أو عالية التأثير.

أضف مراجعة بشرية للتنبؤات منخفضة الثقة أو عالية التأثير. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

تتبع انحراف النموذج وإعادة التحقق من صحته بعد تغيير الكاميرا أو مجموعة البيانات.

تتبع انحراف النموذج وإعادة التحقق من صحته بعد تغيير الكاميرا أو مجموعة البيانات. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف