نظرة عامة
الشبكات المتبقية (ResNets) هي شبكات عصبية عميقة تضيف "تخطي الاتصالات" مما يسمح للطبقات بتعلم تعديلات صغيرة بدلاً من التحويلات الكاملة. أتاحت هذه الخدعة البسيطة تدريب الشبكات على مئات الطبقات العميقة، مما أدى إلى تحقيق قفزة في دقة التعرف على الصور.
تنتمي الشبكات المتبقية إلى عمليات سير عمل الرؤية الحاسوبية التي تفسر أو تولد وسائط مرئية للتحليل والعمليات والإبداع.
الغوص العميق
قبل شبكات ResNets، أدى تكديس العديد من الطبقات إلى جعل أداء الشبكات أسوأ، حتى في بيانات التدريب، وهي مشكلة تسمى التدهور. في عام 2015، قدم باحثو Microsoft كايمينغ هي وزملاؤه الكتلة المتبقية: بدلاً من مطالبة مجموعة من الطبقات بإنتاج مخرجات H(x) مباشرة، سمحوا لها بتعلم المتبقي F(x) = H(x) - x، ثم أضافوا المدخلات الأصلية x مرة أخرى عبر اختصار. إذا لم تكن هناك حاجة إلى طبقة، فيمكنها ببساطة أن تتعلم عدم القيام بأي شيء (F(x) = 0). فاز ResNet-152 في مسابقة ImageNet لعام 2015 بنسبة خطأ أعلى 5 بلغت حوالي 3.6 بالمائة، متجاوزًا التقديرات على المستوى البشري، وأصبحت بنيته التحتية العمود الفقري الأساسي للكشف والتجزئة والتصوير الطبي.
البصيرة الفنية
يحول اتصال التخطي مهمة كل كتلة إلى y = F(x) + x. أثناء الانتشار العكسي، يتدفق التدرج عبر اختصار الهوية دون تغيير، لذلك لا يمكن أن يختفي إلى ما يقرب من الصفر حتى عبر مئات الطبقات. هذا يبقي الأكوام العميقة قابلة للتدريب. لا تضيف اختصارات الهوية أي معلمات إضافية؛ فقط عندما تختلف أحجام المدخلات والمخرجات، يقوم إسقاط صغير (التفاف 1 × 1) بضبط الأبعاد قبل الإضافة.
إتقان الشبكات المتبقية
الشبكات المتبقية (ResNets) هي شبكات عصبية عميقة تضيف "تخطي الاتصالات" مما يسمح للطبقات بتعلم تعديلات صغيرة بدلاً من التحويلات الكاملة. أتاحت هذه الخدعة البسيطة تدريب الشبكات على مئات الطبقات العميقة، مما أدى إلى تحقيق قفزة في دقة التعرف على الصور. تنتمي الشبكات المتبقية إلى عمليات سير عمل الرؤية الحاسوبية التي تفسر أو تولد وسائط مرئية للتحليل والعمليات والإبداع. لبناء فهم عميق، يجب التعامل مع الشبكات المتبقية كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.
من الناحية العملية، تعمل الفرق القوية التي تستخدم الشبكات المتبقية على موازنة الدقة مع الحقائق التشغيلية مثل جودة البيانات، وتباين الإضاءة، واتساق الملصقات. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.
يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع. وفي الوقت نفسه، يمكن أن تصبح حقوق الصور والموافقة مخاطر قانونية إذا كان المصدر غير واضح. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.
التأثير الاستراتيجي
يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع.
يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
يمكن للفرق الإبداعية إنشاء نماذج أولية للمفاهيم بشكل أسرع مع عدد أقل من المراجعات اليدوية.
يمكن للفرق الإبداعية إنشاء نماذج أولية للمفاهيم بشكل أسرع مع عدد أقل من المراجعات اليدوية. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
يمكن أن تستخدم العمليات إشارات الصور والفيديو التي كان من الصعب معالجتها في السابق.
يمكن أن تستخدم العمليات إشارات الصور والفيديو التي كان من الصعب معالجتها في السابق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
التنفيذ في العالم الحقيقي
يتم استخدام العمود الفقري لتصنيف ImageNet (ResNet-50، ResNet-101) كمستخرجات ميزات مدربة مسبقًا لنقل التعلم
اكتشاف الأورام والآفات في صور الأشعة وعلم الأمراض باستخدام أجهزة التشفير المستندة إلى ResNet
أطر عمل اكتشاف الكائنات وتجزئة المثيلات مثل Faster R-CNN وMask R-CNN التي تستخدم العمود الفقري لـ ResNet
خطوط أنابيب إدراك القيادة الذاتية التي تصنف المشاة والمركبات واللافتات من إطارات الكاميرا
أنماط التنفيذ
الشبكات المتبقية في الممارسة العملية
يتم استخدام العمود الفقري لتصنيف ImageNet (ResNet-50، ResNet-101) كمستخرجات ميزات مدربة مسبقًا لنقل التعلم.
يتم استخدام العمود الفقري لتصنيف ImageNet (ResNet-50، ResNet-101) كمستخرجات ميزات مدربة مسبقًا لنقل التعلم. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
الشبكات المتبقية في الممارسة العملية
اكتشاف الأورام والآفات في صور الأشعة وعلم الأمراض باستخدام أجهزة التشفير المستندة إلى ResNet.
اكتشاف الأورام والآفات في صور الأشعة وعلم الأمراض باستخدام أجهزة التشفير المستندة إلى ResNet عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
الشبكات المتبقية في الممارسة العملية
أطر عمل اكتشاف الكائنات وتجزئة المثيلات مثل Faster R-CNN وMask R-CNN التي تستخدم العمود الفقري لـ ResNet.
أطر عمل اكتشاف الكائنات وتجزئة المثيلات، مثل Faster R-CNN وMask R-CNN التي تستخدم أعمدة ResNet الأساسية، تحصل الفرق عادةً على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
الشبكات المتبقية في الممارسة العملية
خطوط أنابيب إدراك القيادة الذاتية التي تصنف المشاة والمركبات واللافتات من إطارات الكاميرا.
عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
المخاطر والدرابزين
يمكن أن تصبح حقوق الصور والموافقة مخاطر قانونية إذا كان المصدر غير واضح.
يمكن أن يختلف أداء النموذج عبر الإضاءة والتركيبة السكانية والبيئات.
قد تمر الإيجابيات الكاذبة دون أن يلاحظها أحد ما لم تتم مراقبة عتبات الثقة.
خارطة طريق التنفيذ
تحديد معايير القبول لتكاليف الدقة والاستدعاء والخطأ.
تحديد معايير القبول لتكاليف الدقة والاستدعاء والخطأ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
اختبار مع البيانات التي تتوافق مع ظروف الإنتاج الحقيقية.
اختبار مع البيانات التي تتوافق مع ظروف الإنتاج الحقيقية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
أضف مراجعة بشرية للتنبؤات منخفضة الثقة أو عالية التأثير.
أضف مراجعة بشرية للتنبؤات منخفضة الثقة أو عالية التأثير. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
تتبع انحراف النموذج وإعادة التحقق من صحته بعد تغيير الكاميرا أو مجموعة البيانات.
تتبع انحراف النموذج وإعادة التحقق من صحته بعد تغيير الكاميرا أو مجموعة البيانات. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.