دليل الذكاء الاصطناعي المرئي

نماذج الرؤية واللغة والعمل للروبوتات

نماذج الرؤية واللغة والعمل (VLA) عبارة عن شبكات عصبية كبيرة تلتقط صور الكاميرا بالإضافة إلى تعليمات مكتوبة وتخرج أوامر محرك الروبوت مباشرة.

نظرة عامة

نماذج الرؤية واللغة والعمل (VLA) عبارة عن شبكات عصبية كبيرة تلتقط صور الكاميرا بالإضافة إلى تعليمات مكتوبة وتخرج أوامر محرك الروبوت مباشرة. إنها مهمة لأنها تجلب الحس السليم الواسع للنماذج الأساسية إلى الآلات المادية، مما يسمح لنموذج واحد بالتحكم في الروبوت عبر العديد من المهام بدلاً من ترميز كل سلوك يدويًا.

تنتمي نماذج الرؤية واللغة والعمل للروبوتات إلى سير عمل الرؤية الحاسوبية التي تفسر أو تولد وسائط مرئية للتحليل والعمليات والإبداع.

الغوص العميق

يدمج نموذج VLA ثلاثة تيارات: الرؤية (إطارات الكاميرا)، واللغة (هدف مثل "وضع الكأس في الحوض")، والعمل (زوايا المفصل، أو فتح/إغلاق المقبض، أو سرعات المؤثر النهائي). Google كان جهاز RT-2 الخاص بـ DeepMind علامة فارقة: فقد استخدم نموذجًا للغة الرؤية تم تدريبه على صور الويب والنصوص، ثم قام بضبطه بشكل مشترك على مسارات الروبوت بحيث يمكن لنفس الشبكة الإجابة على "ما هذه الفاكهة؟" يصدر أيضًا إجراءات رمزية كنص. تم اتباع نماذج مفتوحة مثل OpenVLA (معلمات 7B) وpi-0 للذكاء الطبيعي. والأهم من ذلك، أن هذه النماذج تُظهر نقلًا "ناشئًا": حيث تؤدي معرفة الويب (التعرف على شعار العلامة التجارية، وفهم "الشعار الأصغر") إلى التلاعب، بحيث يقوم الروبوت بتعميم الأشياء والتعليمات التي لم يراها مطلقًا أثناء تدريب الروبوت.

البصيرة الفنية

تقوم العديد من VLAs بفصل الإجراءات المستمرة إلى رموز مميزة حتى يتمكن المحول من التنبؤ بها بشكل انحداري، تمامًا مثل الكلمات. يقوم RT-2 بتعيين كل بُعد إجراء إلى واحدة من 256 حاوية وإصدارها كسلسلة نصية. التصميمات الأحدث مثل pi-0 تربط رأس "خبير الحركة" المنتشر أو المطابق للتدفق بالعمود الفقري للغة الرؤية المجمدة، مما يولد قطع حركة سلسة عالية التردد (على سبيل المثال، 50 هرتز) بدلاً من الخطوات المنفصلة الفردية، مما يحسن البراعة.

إتقان نماذج الرؤية واللغة والعمل للروبوتات

لبناء فهم عميق، تعامل مع نماذج الرؤية واللغة والعمل للروبوتات كنموذج تشغيل، وليس كميزة واحدة. تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تعمل الفرق القوية التي تستخدم نماذج الرؤية واللغة والعمل للروبوتات على موازنة الدقة مع الحقائق التشغيلية مثل جودة البيانات، وتباين الإضاءة، واتساق الملصقات. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع. وفي الوقت نفسه، يمكن أن تصبح حقوق الصور والموافقة مخاطر قانونية إذا كان المصدر غير واضح. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع.

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن للفرق الإبداعية إنشاء نماذج أولية للمفاهيم بشكل أسرع مع عدد أقل من المراجعات اليدوية.

يمكن للفرق الإبداعية إنشاء نماذج أولية للمفاهيم بشكل أسرع مع عدد أقل من المراجعات اليدوية. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن أن تستخدم العمليات إشارات الصور والفيديو التي كان من الصعب معالجتها في السابق.

يمكن أن تستخدم العمليات إشارات الصور والفيديو التي كان من الصعب معالجتها في السابق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل نماذج الرؤية واللغة والعمل للروبوتات

توقع مجموعات بيانات أكبر للتجسيد المتقاطع (تقوم جهود Open X-Embodiment بالفعل بتجميع البيانات من أكثر من 22 نوعًا من الروبوتات) بحيث يقوم نموذج واحد بتشغيل الأذرع والبشر والقواعد المتنقلة. يدفع البحث نحو استنتاج أسرع للتحكم في الوقت الفعلي، ومدخلات ثلاثية الأبعاد وملموسة أكثر ثراءً، وسلاسل تفكير حيث "يفكر" النموذج قبل التصرف. الهدف هو سياسة عامة واحدة يمكنك المطالبة بها باللغة الإنجليزية البسيطة، مع التصحيح الفوري، تمامًا مثل الدردشة مع أحد المساعدين.

التنفيذ في العالم الحقيقي

RT-2 يتحكم في روبوت المطبخ Google "لتحريك الموزة إلى الرقم 3" باستخدام الأرقام التي تعلمها من نص الويب، وليس العروض التوضيحية للروبوت

OpenVLA، نموذج 7B مفتوح المصدر، تم ضبطه بدقة بواسطة المختبرات لتشغيل عملية الاختيار والمكان على سطح الطاولة على أذرع منخفضة التكلفة

الغسيل القابل للطي pi-0 الخاص بالذكاء الفيزيائي ومسح الطاولة عن طريق ربط العديد من المهارات الفرعية من تعليمات واحدة

أخبرني ذراع المستودع "اختر العنصر الأكثر هشاشة" واستدل على الشيء من مظهره البصري

أنماط التنفيذ

نماذج الرؤية واللغة والعمل للروبوتات في الممارسة العملية

يتحكم RT-2 في روبوت المطبخ Google "لتحريك الموزة إلى الرقم 3" باستخدام الأرقام التي تعلمها من نص الويب، وليس العروض التوضيحية للروبوت.

عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

نماذج الرؤية واللغة والعمل للروبوتات في الممارسة العملية

OpenVLA، وهو نموذج 7B مفتوح المصدر، تم ضبطه بدقة بواسطة المختبرات لتشغيل عملية الاختيار والمكان على سطح الطاولة على أذرع منخفضة التكلفة.

نماذج الرؤية واللغة والعمل للروبوتات في الممارسة العملية

الغسيل القابل للطي pi-0 الخاص بالذكاء الفيزيائي ومسح الطاولة عن طريق ربط العديد من المهارات الفرعية من تعليمات واحدة.

نماذج الرؤية واللغة والعمل للروبوتات في الممارسة العملية

أخبرني ذراع المستودع "اختر العنصر الأكثر هشاشة" واستدل على الشيء من مظهره البصري.

المخاطر والدرابزين

يمكن أن تصبح حقوق الصور والموافقة مخاطر قانونية إذا كان المصدر غير واضح.

يمكن أن يختلف أداء النموذج عبر الإضاءة والتركيبة السكانية والبيئات.

قد تمر الإيجابيات الكاذبة دون أن يلاحظها أحد ما لم تتم مراقبة عتبات الثقة.

خارطة طريق التنفيذ

تحديد معايير القبول لتكاليف الدقة والاستدعاء والخطأ.

تعامل مع هذا كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف الطرح مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

اختبار مع البيانات التي تتوافق مع ظروف الإنتاج الحقيقية.

أضف مراجعة بشرية للتنبؤات منخفضة الثقة أو عالية التأثير.

تتبع انحراف النموذج وإعادة التحقق من صحته بعد تغيير الكاميرا أو مجموعة البيانات.

استمر في الاستكشاف

رؤية الكمبيوتر

فهم الأنظمة الأساسية التي تدعم الذكاء الاصطناعي البصري.

قراءة الدليل

توليد الصور بالذكاء الاصطناعي

استكشف سير عمل الإنشاء والمقايضات النموذجية.

قراءة الدليل

Check your understanding

Test yourself: take the Vision-Language-Action Models for Robotics quiz

Start quiz →

نماذج الرؤية واللغة والعمل للروبوتات

نظرة عامة

الغوص العميق

البصيرة الفنية

إتقان نماذج الرؤية واللغة والعمل للروبوتات

التأثير الاستراتيجي

مستقبل نماذج الرؤية واللغة والعمل للروبوتات

التنفيذ في العالم الحقيقي

أنماط التنفيذ

نماذج الرؤية واللغة والعمل للروبوتات في الممارسة العملية

نماذج الرؤية واللغة والعمل للروبوتات في الممارسة العملية

نماذج الرؤية واللغة والعمل للروبوتات في الممارسة العملية

نماذج الرؤية واللغة والعمل للروبوتات في الممارسة العملية

المخاطر والدرابزين

خارطة طريق التنفيذ

استمر في الاستكشاف

رؤية الكمبيوتر

توليد الصور بالذكاء الاصطناعي

Related guides