دليل الذكاء الاصطناعي المرئي

YOLO الكشف في الوقت الحقيقي

YOLO (أنت تنظر مرة واحدة فقط) هي مجموعة من نماذج الكشف عن الكائنات التي تبحث عن كل كائن في الصورة وتسميه بتمريرة شبكة عصبية واحدة، بسرعة كافية للفيديو المباشر.

نظرة عامة

YOLO (أنت تنظر مرة واحدة فقط) هي مجموعة من نماذج الكشف عن الكائنات التي تبحث عن كل كائن في الصورة وتسميه بتمريرة شبكة عصبية واحدة، بسرعة كافية للفيديو المباشر. لقد فتحت سرعتها رؤية في الوقت الفعلي لكل شيء بدءًا من الطائرات بدون طيار وحتى أكشاك الدفع الذاتي.

ينتمي YOLO Real-Time Detection إلى مسارات عمل رؤية الكمبيوتر التي تفسر أو تولد وسائط مرئية للتحليل والعمليات والإبداع.

الغوص العميق

قبل YOLO، كانت أجهزة الكشف مثل R-CNN تقوم بتشغيل المصنف آلاف المرات عبر مناطق الصورة، وكان ذلك بطيئًا. أعادت YOLO، التي قدمها جوزيف ريدمون في عام 2015، صياغة الكشف باعتباره مشكلة انحدار واحدة: قم بتقسيم الصورة إلى شبكة، ولكل خلية التنبؤ بالمربعات المحيطة، ودرجة الكائن، واحتمالات الفئة في تمريرة أمامية واحدة. إن تصميم "النظرة الواحدة" هذا جعله أسرع بشكل كبير من أجهزة الكشف ذات المرحلتين مع الحفاظ على دقته. تطورت العائلة بسرعة من خلال العديد من الإصدارات (YOLOv2 حتى YOLOv8 وما بعده)، مما أضاف صناديق تثبيت وأعمدة فقرية أفضل ورؤوس خالية من المرساة. تعمل المتغيرات الحديثة بما يزيد عن 100 إطار في الثانية على وحدة معالجة الرسومات، مما يجعل YOLO هو الخيار الافتراضي عندما يكون زمن الوصول مهمًا بقدر أهمية الدقة.

البصيرة الفنية

يقوم YOLO بتقسيم الصورة إلى شبكة S by S. تتنبأ كل خلية بمجموعة ثابتة من المربعات المحيطة مع (x، y، العرض، الارتفاع)، ودرجة الثقة، واحتمالات الفئة، كل ذلك في مسار واحد. يتم تقليم المربعات المكررة المتداخلة عن طريق المنع غير الأقصى، مما يحافظ على المربع ذي الثقة الأعلى ويتجاهل المربعات الأخرى فوق حد IoU. تعمل الخسارة بشكل مشترك على تحسين إحداثيات الصندوق والموضوعية والتصنيف، بحيث يتدرب الكاشف بالكامل من النهاية إلى النهاية.

إتقان الكشف عن YOLO في الوقت الحقيقي

YOLO (أنت تنظر مرة واحدة فقط) هي مجموعة من نماذج الكشف عن الكائنات التي تبحث عن كل كائن في الصورة وتسميه بتمريرة شبكة عصبية واحدة، بسرعة كافية للفيديو المباشر. لقد فتحت سرعتها رؤية في الوقت الفعلي لكل شيء بدءًا من الطائرات بدون طيار وحتى أكشاك الدفع الذاتي. ينتمي YOLO Real-Time Detection إلى مسارات عمل رؤية الكمبيوتر التي تفسر أو تولد وسائط مرئية للتحليل والعمليات والإبداع. لبناء فهم عميق، تعامل مع YOLO Real-Time Detection كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تعمل الفرق القوية التي تستخدم YOLO Real-Time Detection على موازنة الدقة مع الحقائق التشغيلية مثل جودة البيانات وتباين الإضاءة واتساق الملصقات. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع. وفي الوقت نفسه، يمكن أن تصبح حقوق الصور والموافقة مخاطر قانونية إذا كان المصدر غير واضح. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع.

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن للفرق الإبداعية إنشاء نماذج أولية للمفاهيم بشكل أسرع مع عدد أقل من المراجعات اليدوية.

يمكن للفرق الإبداعية إنشاء نماذج أولية للمفاهيم بشكل أسرع مع عدد أقل من المراجعات اليدوية. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن أن تستخدم العمليات إشارات الصور والفيديو التي كان من الصعب معالجتها في السابق.

يمكن أن تستخدم العمليات إشارات الصور والفيديو التي كان من الصعب معالجتها في السابق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل كشف YOLO في الوقت الحقيقي

تستمر YOLO في الاتجاه نحو النشر على الحافة، مع نماذج كمية أصغر تعمل على الهواتف ووحدات التحكم الدقيقة والكاميرات المدمجة دون اتصال سحابي. تمزج الإصدارات الأحدث بين مكونات المحولات والتصميمات الخالية من المرساة لضمان الدقة دون التضحية بالسرعة. توقع تكاملًا أكثر إحكامًا مع التتبع والتجزئة، واكتشاف المفردات المفتوحة التي تتعرف على الكائنات من المطالبات النصية بدلاً من التسميات الثابتة، واستمرار الاهتمام بالعمل بكفاءة على أجهزة رخيصة ومنخفضة الطاقة عند الحافة.

التنفيذ في العالم الحقيقي

أنظمة الدفع الذاتي والمتاجر التي لا يوجد بها أمين صندوق تكتشف العناصر أثناء استلام المتسوقين لها

الطائرات بدون طيار والروبوتات الزراعية تكتشف المحاصيل أو الأعشاب الضارة أو الماشية في الوقت الفعلي

كاميرات المرور والمراقبة التي تقوم بإحصاء المركبات والكشف عن المشاة لتحليلات المدينة الذكية

خطوط التصنيع التي تشير إلى الأجزاء المعيبة على حزام ناقل سريع الحركة

أنماط التنفيذ

YOLO الكشف في الوقت الحقيقي في الممارسة العملية

أنظمة الدفع الذاتي والمتاجر التي لا يوجد بها أمين صندوق تكتشف العناصر أثناء استلام المتسوقين لها.

أنظمة الدفع الذاتي والمتاجر التي لا يوجد بها أمين صندوق تكتشف العناصر أثناء استلام المتسوقين لها، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

YOLO الكشف في الوقت الحقيقي في الممارسة العملية

الطائرات بدون طيار والروبوتات الزراعية تكتشف المحاصيل أو الأعشاب الضارة أو الماشية في الوقت الفعلي.

الطائرات بدون طيار والروبوتات الزراعية التي تكتشف المحاصيل أو الأعشاب الضارة أو الماشية في الوقت الفعلي، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

YOLO الكشف في الوقت الحقيقي في الممارسة العملية

كاميرات المرور والمراقبة التي تقوم بإحصاء المركبات والكشف عن المشاة لتحليلات المدينة الذكية.

كاميرات المرور والمراقبة التي تحسب المركبات وتكتشف المشاة لتحليلات المدينة الذكية عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

YOLO الكشف في الوقت الحقيقي في الممارسة العملية

خطوط التصنيع التي تشير إلى الأجزاء المعيبة على حزام ناقل سريع الحركة.

خطوط التصنيع التي تشير إلى الأجزاء المعيبة على حزام ناقل سريع الحركة عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

يمكن أن تصبح حقوق الصور والموافقة مخاطر قانونية إذا كان المصدر غير واضح.

!

يمكن أن يختلف أداء النموذج عبر الإضاءة والتركيبة السكانية والبيئات.

!

قد تمر الإيجابيات الكاذبة دون أن يلاحظها أحد ما لم تتم مراقبة عتبات الثقة.

خارطة طريق التنفيذ

1

تحديد معايير القبول لتكاليف الدقة والاستدعاء والخطأ.

تحديد معايير القبول لتكاليف الدقة والاستدعاء والخطأ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

اختبار مع البيانات التي تتوافق مع ظروف الإنتاج الحقيقية.

اختبار مع البيانات التي تتوافق مع ظروف الإنتاج الحقيقية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

أضف مراجعة بشرية للتنبؤات منخفضة الثقة أو عالية التأثير.

أضف مراجعة بشرية للتنبؤات منخفضة الثقة أو عالية التأثير. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

تتبع انحراف النموذج وإعادة التحقق من صحته بعد تغيير الكاميرا أو مجموعة البيانات.

تتبع انحراف النموذج وإعادة التحقق من صحته بعد تغيير الكاميرا أو مجموعة البيانات. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف