دليل الذكاء الاصطناعي المرئي

محولات الرؤية

تطبق محولات الرؤية (ViTs) بنية المحولات التي تعمل على تشغيل ChatGPT على الصور، حيث تتعامل مع الصورة كسلسلة من التصحيحات بدلاً من شبكة من وحدات البكسل.

نظرة عامة

تطبق محولات الرؤية (ViTs) بنية المحولات التي تعمل على تشغيل ChatGPT على الصور، حيث تتعامل مع الصورة كسلسلة من التصحيحات بدلاً من شبكة من وحدات البكسل. لقد أثبتوا أنك لا تحتاج إلى تلافيفات لتحقيق التعرف على الصور على أحدث طراز.

تنتمي محولات الرؤية إلى مسارات عمل الرؤية الحاسوبية التي تفسر أو تولد الوسائط المرئية للتحليل والعمليات والإبداع.

الغوص العميق

لسنوات عديدة، هيمنت الشبكات العصبية التلافيفية (CNN) على رؤية الكمبيوتر عن طريق مسح المرشحات الصغيرة عبر الصورة. تحدت ورقة عام 2020 بعنوان "الصورة تستحق 16 × 16 كلمة" من Google هذا الأمر عن طريق تقطيع الصورة إلى بقع ثابتة، عادةً 16 × 16 بكسل، وتسطيح كل منها في متجه، وتغذية التسلسل الناتج في محول قياسي. تصبح كل رقعة "رمزًا مميزًا"، تمامًا مثل كلمة في جملة. يستخدم النموذج بعد ذلك الاهتمام الذاتي بحيث يمكن لكل رقعة أن ترتبط مباشرة بكل رقعة أخرى، وتلتقط علاقات طويلة المدى لا يمكن لمرشح تلافيفي صغير رؤيتها في خطوة واحدة. المعضلة: إن ViTs متعطشة للبيانات لأنها تفتقر إلى الافتراضات المضمنة في شبكات CNN. وبعد تدريبهم على مجموعات بيانات هائلة مثل JFT-300M، تمكنوا من مطابقة أفضل شبكات CNN أو التغلب عليها، مما أعاد تشكيل أبحاث الرؤية الحديثة.

البصيرة الفنية

يقوم ViT بتقسيم الصورة إلى تصحيحات غير متداخلة، وعرض كل تصحيح خطيًا في التضمين، وإضافة ترميزات موضعية حتى يعرف النموذج مكان وجود كل تصحيح في الصورة الأصلية. يتم إضافة "رمز مميز للفئة" خاص قابل للتعلم؛ تمثيلها النهائي يقود التصنيف. تسمح طبقات الاهتمام الذاتي المكدسة لكل تصحيح بوزن المعلومات الواردة من جميع التصحيحات الأخرى، مما يوفر مجال استقبال عالمي من الطبقة الأولى. نظرًا لأن الاهتمام يتزايد بشكل تربيعي مع عدد التصحيحات، تصبح الصور عالية الدقة باهظة الثمن، ولهذا السبب يهم حجم التصحيح ومتغيرات الانتباه الفعالة.

إتقان محولات الرؤية

تطبق محولات الرؤية (ViTs) بنية المحولات التي تعمل على تشغيل ChatGPT على الصور، حيث تتعامل مع الصورة كسلسلة من التصحيحات بدلاً من شبكة من وحدات البكسل. لقد أثبتوا أنك لا تحتاج إلى تلافيفات لتحقيق التعرف على الصور على أحدث طراز. تنتمي محولات الرؤية إلى مسارات عمل الرؤية الحاسوبية التي تفسر أو تولد الوسائط المرئية للتحليل والعمليات والإبداع. لبناء فهم عميق، تعامل مع Vision Transformers كنموذج تشغيل، وليس كميزة واحدة: حدد النتائج المرغوبة، ووضح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تعمل الفرق القوية التي تستخدم Vision Transformers على موازنة الدقة مع الحقائق التشغيلية مثل جودة البيانات وتباين الإضاءة واتساق الملصقات. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع. وفي الوقت نفسه، يمكن أن تصبح حقوق الصور والموافقة مخاطر قانونية إذا كان المصدر غير واضح. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع.

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن للفرق الإبداعية إنشاء نماذج أولية للمفاهيم بشكل أسرع مع عدد أقل من المراجعات اليدوية.

يمكن للفرق الإبداعية إنشاء نماذج أولية للمفاهيم بشكل أسرع مع عدد أقل من المراجعات اليدوية. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن أن تستخدم العمليات إشارات الصور والفيديو التي كان من الصعب معالجتها في السابق.

يمكن أن تستخدم العمليات إشارات الصور والفيديو التي كان من الصعب معالجتها في السابق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل محولات الرؤية

تعمل الآن أجهزة ViTs وCNN-transformer الهجينة على تشغيل أنظمة الرؤية الرائدة، وتدعم الهندسة المعمارية النماذج متعددة الوسائط التي تدمج الصور مع النص، مثل CLIP ومساعدي لغة الرؤية الحديثة. نتوقع استمرار العمل على جعل الاهتمام بالدقة العالية والفيديو أرخص، بالإضافة إلى التدريب المسبق الخاضع للإشراف الذاتي (مثل نمذجة الصور المقنعة) الذي يقلل من الشهية الهائلة للبيانات المصنفة. مع نمو الحوسبة، يظل الخط الفاصل بين "نموذج اللغة" و"نموذج الرؤية" غير واضح، حيث تعمل المحولات كعمود فقري مشترك عبر الطرائق بدلاً من التصميمات المتخصصة المنفصلة.

التنفيذ في العالم الحقيقي

Google أنظمة تصنيف الصور وتصنيف البحث التي اعتمدت العمود الفقري للمحولات بعد أن أثبت ViT قدرته على المنافسة مع شبكات CNN

CLIP ونماذج نص الصور الأخرى التي تستخدم ViT لتشفير الصور بحيث يمكن مطابقة الصور والتسميات التوضيحية في مساحة مشتركة

أبحاث التصوير الطبي باستخدام ViTs لاكتشاف الأنماط عبر الفحص بأكمله بدلاً من الأنسجة المحلية فقط

مجموعات إدراك القيادة الذاتية والروبوتات التي تجمع بين الاهتمام بأسلوب ViT لفهم المشهد عبر مجال الرؤية الكامل

أنماط التنفيذ

محولات الرؤية في الممارسة العملية

Google أنظمة تصنيف الصور وتصنيف البحث التي اعتمدت العمود الفقري للمحولات بعد أن أثبت ViT قدرته على المنافسة مع شبكات CNN.

Google أنظمة تصنيف الصور وتصنيف البحث الخاصة بـ Google التي اعتمدت العمود الفقري للمحولات بعد أن أثبتت ViT قدرتها التنافسية مع فرق CNNs عادةً ما تحصل على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

محولات الرؤية في الممارسة العملية

CLIP ونماذج نص الصور الأخرى التي تستخدم ViT لتشفير الصور بحيث يمكن مطابقة الصور والتعليقات التوضيحية في مساحة مشتركة.

CLIP ونماذج نص الصور الأخرى التي تستخدم ViT لتشفير الصور بحيث يمكن مطابقة الصور والتسميات التوضيحية في مساحة مشتركة تحصل الفرق عادةً على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

محولات الرؤية في الممارسة العملية

أبحاث التصوير الطبي باستخدام ViTs لاكتشاف الأنماط عبر الفحص بأكمله بدلاً من الأنسجة المحلية فقط.

أبحاث التصوير الطبي التي تستخدم ViTs لاكتشاف الأنماط عبر المسح بأكمله بدلاً من الأنسجة المحلية فقط، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

محولات الرؤية في الممارسة العملية

مجموعات إدراك القيادة الذاتية والروبوتات التي تجمع بين الاهتمام بأسلوب ViT لفهم المشهد عبر مجال الرؤية الكامل.

مجموعات إدراك القيادة الذاتية والروبوتات التي تجمع بين الاهتمام بأسلوب ViT لفهم المشهد عبر مجال الرؤية الكامل، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

يمكن أن تصبح حقوق الصور والموافقة مخاطر قانونية إذا كان المصدر غير واضح.

!

يمكن أن يختلف أداء النموذج عبر الإضاءة والتركيبة السكانية والبيئات.

!

قد تمر الإيجابيات الكاذبة دون أن يلاحظها أحد ما لم تتم مراقبة عتبات الثقة.

خارطة طريق التنفيذ

1

تحديد معايير القبول لتكاليف الدقة والاستدعاء والخطأ.

تحديد معايير القبول لتكاليف الدقة والاستدعاء والخطأ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

اختبار مع البيانات التي تتوافق مع ظروف الإنتاج الحقيقية.

اختبار مع البيانات التي تتوافق مع ظروف الإنتاج الحقيقية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

أضف مراجعة بشرية للتنبؤات منخفضة الثقة أو عالية التأثير.

أضف مراجعة بشرية للتنبؤات منخفضة الثقة أو عالية التأثير. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

تتبع انحراف النموذج وإعادة التحقق من صحته بعد تغيير الكاميرا أو مجموعة البيانات.

تتبع انحراف النموذج وإعادة التحقق من صحته بعد تغيير الكاميرا أو مجموعة البيانات. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف