دليل الذكاء الاصطناعي المرئي

الكشف عن كائن المفردات المفتوحة

يتيح اكتشاف الكائنات ذات المفردات المفتوحة للنموذج العثور على الكائنات الموصوفة بنص عشوائي ووضعها في مربع، بما في ذلك الفئات التي لم يسبق له رؤيتها مُصنفة أثناء التدريب.

نظرة عامة

يتيح اكتشاف الكائنات ذات المفردات المفتوحة للنموذج العثور على الكائنات الموصوفة بنص عشوائي ووضعها في مربع، بما في ذلك الفئات التي لم يسبق له رؤيتها مُصنفة أثناء التدريب. وهذا مهم لأن أجهزة الكشف التقليدية مقيدة بقائمة ثابتة من الفئات، في حين أن نماذج المفردات المفتوحة يمكنها اكتشاف أي شيء يمكنك تسميته تقريبًا.

ينتمي اكتشاف الكائنات ذات المفردات المفتوحة إلى مسارات عمل الرؤية الحاسوبية التي تفسر أو تولد الوسائط المرئية للتحليل والعمليات والإبداع.

الغوص العميق

يتم تدريب أجهزة الكشف الكلاسيكية على مجموعة مغلقة من الفئات، مثل الفئات الـ 80 في COCO، ولا يمكنها التعرف على "شيء" خارج تلك القائمة. فواصل الكشف عن المفردات المفتوحة التي تحد من خلال محاذاة ميزات المنطقة المرئية مع مساحة تضمين لغة الرؤية المشتركة، يتم تعلمها عادةً من أزواج الصور والنص الضخمة (كما هو الحال في CLIP). عند الاستدلال، تقوم بتوفير تسميات نصية، ويقوم النموذج بتضمين تلك التسميات، ويطابق المناطق المكتشفة مع أي نص يكون تضمينه هو الأقرب، لذلك تعمل الفئات الجديدة طالما يمكنك وصفها. قامت أنظمة مثل ViLD، وGLIP، وOWL-ViT، وDetic، وGrounding DINO بتعميم هذا النهج من خلال الجمع بين العمود الفقري للكشف مع أسس اللغة ومن خلال التدريب على مجموعات البيانات الكبيرة أو الضعيفة أو المؤرضة.

البصيرة الفنية

الحيلة هي استبدال طبقة المصنف الثابتة بتضمينات النص. بدلاً من تعلم ناقل وزن واحد لكل فئة معروفة، يقوم الكاشف بإسقاط كل منطقة في نفس المساحة مثل برنامج تشفير اللغة؛ ويصبح التصنيف عبارة عن مقارنة تشابه بين ميزات المنطقة وتضمينات أسماء أو عبارات الفئات المقدمة من قبل المستخدم. نظرًا لأن برنامج تشفير النص يعمم على الكلمات غير المرئية، فإن تبديل سلاسل العناوين الجديدة في وقت الاختبار يتيح اكتشاف الفئات الغائبة عن بيانات تدريب المربع المحيط.

إتقان الكشف عن الكائنات ذات المفردات المفتوحة

يتيح اكتشاف الكائنات ذات المفردات المفتوحة للنموذج العثور على الكائنات الموصوفة بنص عشوائي ووضعها في مربع، بما في ذلك الفئات التي لم يسبق له رؤيتها مُصنفة أثناء التدريب. وهذا مهم لأن أجهزة الكشف التقليدية مقيدة بقائمة ثابتة من الفئات، في حين أن نماذج المفردات المفتوحة يمكنها اكتشاف أي شيء يمكنك تسميته تقريبًا. ينتمي اكتشاف الكائنات ذات المفردات المفتوحة إلى مسارات عمل الرؤية الحاسوبية التي تفسر أو تولد الوسائط المرئية للتحليل والعمليات والإبداع. لبناء فهم عميق، تعامل مع اكتشاف الكائنات ذو المفردات المفتوحة كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تعمل الفرق القوية التي تستخدم تقنية الكشف عن الكائنات ذات المفردات المفتوحة على موازنة الدقة مع الحقائق التشغيلية مثل جودة البيانات، وتباين الإضاءة، واتساق الملصقات. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع. وفي الوقت نفسه، يمكن أن تصبح حقوق الصور والموافقة مخاطر قانونية إذا كان المصدر غير واضح. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع.

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن للفرق الإبداعية إنشاء نماذج أولية للمفاهيم بشكل أسرع مع عدد أقل من المراجعات اليدوية.

يمكن للفرق الإبداعية إنشاء نماذج أولية للمفاهيم بشكل أسرع مع عدد أقل من المراجعات اليدوية. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن أن تستخدم العمليات إشارات الصور والفيديو التي كان من الصعب معالجتها في السابق.

يمكن أن تستخدم العمليات إشارات الصور والفيديو التي كان من الصعب معالجتها في السابق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل الكشف عن الكائنات ذات المفردات المفتوحة

يتقارب اكتشاف المفردات المفتوحة مع التأريض والتجزئة، حيث تقوم العبارات ذات الشكل الحر (وليس الكلمات المفردة فقط) بتحديد موضع الكائنات، ومع أنظمة سريعة مقترنة بنماذج مثل SAM للأقنعة. توقع دقة صفرية أقوى، واستعلامات نصية أطول وأكثر تركيبًا ("الكوب الأحمر خلف الكمبيوتر المحمول")، واقتران محكم مع المساعدين متعددي الوسائط الذين يكتشفون عند الطلب. ومع تحسن التدريب على الصور والنصوص على نطاق الويب، فإن الخط الفاصل بين الاكتشاف والاسترجاع وفهم اللغة سيظل غير واضح نحو الأساس البصري العام.

التنفيذ في العالم الحقيقي

البحث في الصور عن الكائنات النادرة أو المخصصة عن طريق كتابة أسمائها دون إعادة التدريب

تحدد أنظمة الروبوتات موقع العنصر الذي يسميه المستخدم باللغة الطبيعية قبل الإمساك به

تصنيف مجموعات البيانات تلقائيًا عن طريق اكتشاف العديد من الفئات الجديدة من قائمة نصية

الإشراف على المحتوى الذي يشير إلى كائنات تصف كائنات غير موجودة في تسميات التدريب الأصلية

أنماط التنفيذ

الكشف عن الكائنات ذات المفردات المفتوحة في الممارسة العملية

البحث في الصور عن الكائنات النادرة أو المخصصة عن طريق كتابة أسمائها دون إعادة التدريب.

البحث عن الصور عن كائنات نادرة أو مخصصة عن طريق كتابة أسمائها دون إعادة تدريب عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

الكشف عن الكائنات ذات المفردات المفتوحة في الممارسة العملية

تحدد أنظمة الروبوتات موقع العنصر الذي يسميه المستخدم باللغة الطبيعية قبل الإمساك به.

تحدد أنظمة الروبوتات عنصرًا يسميه المستخدم باللغة الطبيعية قبل استيعابه، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

الكشف عن الكائنات ذات المفردات المفتوحة في الممارسة العملية

تصنيف مجموعات البيانات تلقائيًا عن طريق اكتشاف العديد من الفئات الجديدة من قائمة نصية.

تصنيف مجموعات البيانات تلقائيًا عن طريق اكتشاف العديد من الفئات الجديدة من قائمة نصية، تحصل الفرق عادةً على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

الكشف عن الكائنات ذات المفردات المفتوحة في الممارسة العملية

الإشراف على المحتوى الذي يشير إلى كائنات تصف كائنات غير موجودة في تسميات التدريب الأصلية.

الإشراف على المحتوى الذي يشير إلى كائنات غير موجودة في تسميات التدريب الأصلية، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

يمكن أن تصبح حقوق الصور والموافقة مخاطر قانونية إذا كان المصدر غير واضح.

!

يمكن أن يختلف أداء النموذج عبر الإضاءة والتركيبة السكانية والبيئات.

!

قد تمر الإيجابيات الكاذبة دون أن يلاحظها أحد ما لم تتم مراقبة عتبات الثقة.

خارطة طريق التنفيذ

1

تحديد معايير القبول لتكاليف الدقة والاستدعاء والخطأ.

تحديد معايير القبول لتكاليف الدقة والاستدعاء والخطأ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

اختبار مع البيانات التي تتوافق مع ظروف الإنتاج الحقيقية.

اختبار مع البيانات التي تتوافق مع ظروف الإنتاج الحقيقية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

أضف مراجعة بشرية للتنبؤات منخفضة الثقة أو عالية التأثير.

أضف مراجعة بشرية للتنبؤات منخفضة الثقة أو عالية التأثير. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

تتبع انحراف النموذج وإعادة التحقق من صحته بعد تغيير الكاميرا أو مجموعة البيانات.

تتبع انحراف النموذج وإعادة التحقق من صحته بعد تغيير الكاميرا أو مجموعة البيانات. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف