دليل الذكاء الاصطناعي المرئي

شبكات CNN على أساس المنطقة

إن شبكات CNN القائمة على المنطقة (R-CNNs) هي مجموعة من أجهزة كشف الكائنات التي تقترح أولاً المناطق المرشحة في الصورة، ثم تستخدم CNN لتصنيف كل كائن ووضعه في مربع بدقة.

نظرة عامة

إن شبكات CNN القائمة على المنطقة (R-CNNs) هي مجموعة من أجهزة كشف الكائنات التي تقترح أولاً المناطق المرشحة في الصورة، ثم تستخدم CNN لتصنيف كل كائن ووضعه في مربع بدقة. لقد حولوا تصنيف الصور إلى اكتشاف كامل للكائنات، وتحديد موقع العديد من الكائنات ووضع علامات عليها في وقت واحد.

تنتمي شبكات CNN القائمة على المنطقة إلى مسارات عمل الرؤية الحاسوبية التي تفسر أو تولد وسائط مرئية للتحليل والعمليات والإبداع.

الغوص العميق

تصنيف الصور يجيب على السؤال "ماذا يوجد في هذه الصورة؟" لكن الكشف يجب أن يجيب أيضًا على السؤال "أين وكم؟" استخدم R-CNN الأصلي (2014) خوارزمية خارجية (بحث انتقائي) لاقتراح حوالي 2000 منطقة، مع تعديل كل منطقة إلى حجم ثابت، وتشغيل CNN على كل منطقة، وكان ذلك دقيقًا ولكنه بطيء للغاية. قامت Fast R-CNN بتسريع هذا الأمر عن طريق تشغيل CNN مرة واحدة على الصورة بأكملها وتجميع الميزات لكل منطقة (تجميع RoI). ثم استبدلت R-CNN الأسرع البحث الانتقائي بشبكة اقتراح المنطقة المستفادة (RPN)، مما يجعل خط الأنابيب بأكمله شاملاً وفي الوقت الفعلي تقريبًا. قام قناع R-CNN بتوسيع نطاقه بشكل أكبر لإخراج أقنعة على مستوى البكسل لكل كائن تم اكتشافه.

البصيرة الفنية

قفزة الكفاءة الرئيسية هي تجميع عائد الاستثمار: فبدلاً من إعادة تشغيل CNN على كل صندوق مقترح، تحسب الشبكة خريطة ميزات مشتركة واحدة للصورة، ثم تقوم باقتصاص وتغيير حجم الميزات داخل كل منطقة تهم شبكة ثابتة. ينزلق RPN الأسرع من R-CNN على خريطة الميزات التي تتنبأ بدرجات "الموضوعية" وتعديلات الصندوق لمربعات التثبيت المعدة مسبقًا ذات الأحجام ونسب العرض إلى الارتفاع المختلفة، مما يؤدي إلى إنشاء مقترحات مجانًا تقريبًا.

إتقان شبكات CNN القائمة على المنطقة

إن شبكات CNN القائمة على المنطقة (R-CNNs) هي مجموعة من أجهزة كشف الكائنات التي تقترح أولاً المناطق المرشحة في الصورة، ثم تستخدم CNN لتصنيف كل كائن ووضعه في مربع بدقة. لقد حولوا تصنيف الصور إلى اكتشاف كامل للكائنات، وتحديد موقع العديد من الكائنات ووضع علامات عليها في وقت واحد. تنتمي شبكات CNN القائمة على المنطقة إلى مسارات عمل الرؤية الحاسوبية التي تفسر أو تولد وسائط مرئية للتحليل والعمليات والإبداع. لبناء فهم عميق، يجب التعامل مع شبكات CNN القائمة على المنطقة كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تعمل الفرق القوية التي تستخدم شبكات CNN على أساس المنطقة على موازنة الدقة مع الحقائق التشغيلية مثل جودة البيانات، وتباين الإضاءة، واتساق الملصقات. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع. وفي الوقت نفسه، يمكن أن تصبح حقوق الصور والموافقة مخاطر قانونية إذا كان المصدر غير واضح. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع.

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن للفرق الإبداعية إنشاء نماذج أولية للمفاهيم بشكل أسرع مع عدد أقل من المراجعات اليدوية.

يمكن للفرق الإبداعية إنشاء نماذج أولية للمفاهيم بشكل أسرع مع عدد أقل من المراجعات اليدوية. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن أن تستخدم العمليات إشارات الصور والفيديو التي كان من الصعب معالجتها في السابق.

يمكن أن تستخدم العمليات إشارات الصور والفيديو التي كان من الصعب معالجتها في السابق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل شبكات CNN القائمة على المنطقة

تظل كاشفات R-CNN ذات المرحلتين قوية عندما تكون الدقة أكثر أهمية، ولكن الكاشفات أحادية المرحلة (YOLO وSSD) والكاشفات القائمة على المحولات مثل DETR، والتي تتخطى نقاط التثبيت والمقترحات المصممة يدويًا بالكامل، تحظى بشعبية متزايدة بسبب السرعة والبساطة. الاتجاه هو نحو الكشف الشامل والخالي من المرساة والمستند إلى الاستعلام. ومع ذلك، فإن الأفكار الأساسية لسلالة R-CNN، والميزات المشتركة والتفكير على مستوى المنطقة، تستمر في التأثير على أنظمة التجزئة والفيديو والكشف ثلاثي الأبعاد.

التنفيذ في العالم الحقيقي

كشف وحصر المنتجات على رفوف البيع بالتجزئة لإدارة المخزون

مثيل تجزئة الخلايا أو الأعضاء في عمليات الفحص الطبي باستخدام Mask R-CNN

تحديد العيوب ومواقعها على خط إنتاج المصنع

تحديد موقع العديد من المركبات والمشاة في خلاصات كاميرا القيادة الذاتية

أنماط التنفيذ

شبكات CNN القائمة على المنطقة في الممارسة العملية

كشف وحصر المنتجات على رفوف البيع بالتجزئة لإدارة المخزون.

اكتشاف المنتجات الموجودة على أرفف البيع بالتجزئة وحسابها لإدارة المخزون عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

شبكات CNN القائمة على المنطقة في الممارسة العملية

مثيل تجزئة الخلايا أو الأعضاء في عمليات الفحص الطبي باستخدام Mask R-CNN.

عادةً ما تحصل فرق مثيلات الخلايا أو الأعضاء في عمليات الفحص الطبي باستخدام Mask R-CNN على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

شبكات CNN القائمة على المنطقة في الممارسة العملية

تحديد العيوب ومواقعها على خط إنتاج المصنع.

تحديد العيوب ومواقعها على خط إنتاج المصنع عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

شبكات CNN القائمة على المنطقة في الممارسة العملية

تحديد موقع العديد من المركبات والمشاة في خلاصات كاميرا القيادة الذاتية.

تحديد موقع العديد من المركبات والمشاة في خلاصات كاميرات القيادة الذاتية عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

يمكن أن تصبح حقوق الصور والموافقة مخاطر قانونية إذا كان المصدر غير واضح.

!

يمكن أن يختلف أداء النموذج عبر الإضاءة والتركيبة السكانية والبيئات.

!

قد تمر الإيجابيات الكاذبة دون أن يلاحظها أحد ما لم تتم مراقبة عتبات الثقة.

خارطة طريق التنفيذ

1

تحديد معايير القبول لتكاليف الدقة والاستدعاء والخطأ.

تحديد معايير القبول لتكاليف الدقة والاستدعاء والخطأ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

اختبار مع البيانات التي تتوافق مع ظروف الإنتاج الحقيقية.

اختبار مع البيانات التي تتوافق مع ظروف الإنتاج الحقيقية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

أضف مراجعة بشرية للتنبؤات منخفضة الثقة أو عالية التأثير.

أضف مراجعة بشرية للتنبؤات منخفضة الثقة أو عالية التأثير. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

تتبع انحراف النموذج وإعادة التحقق من صحته بعد تغيير الكاميرا أو مجموعة البيانات.

تتبع انحراف النموذج وإعادة التحقق من صحته بعد تغيير الكاميرا أو مجموعة البيانات. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف