دليل الذكاء الاصطناعي المرئي

حقول بلينوكسيلز وفوكسيل راديانس

أظهر Plenoxels أنه يمكنك إعادة بناء مشهد ثلاثي الأبعاد بنتائج بجودة NeRF دون أي شبكة عصبية على الإطلاق - مجرد شبكة من وحدات voxels تخزن اللون والكثافة.

نظرة عامة

أظهر Plenoxels أنه يمكنك إعادة بناء مشهد ثلاثي الأبعاد بنتائج بجودة NeRF دون أي شبكة عصبية على الإطلاق - مجرد شبكة من وحدات voxels تخزن اللون والكثافة. والنتيجة هي أن التدريب أسرع بنحو 100 مرة من NeRF الأصلي مع مطابقة الجودة البصرية.

تنتمي Plenoxels وVoxel Radiance Fields إلى مسارات عمل الرؤية الحاسوبية التي تفسر أو تولد الوسائط المرئية للتحليل والعمليات والإبداع.

الغوص العميق

يحقق NeRF الواقعية ولكنه بطيء لأن كل عينة تتطلب تمريرًا للأمام عبر شبكة عصبية عميقة، ويمكن أن يستغرق التدريب ساعات أو أيامًا. طرح بلينوكسيلز (Sara Fridovich-Keil، Alex Yu et al.، 2022) سؤالًا استفزازيًا: هل الشبكة ضرورية أصلاً؟ وكانت إجابتهم لا. إنهم يمثلون المشهد كشبكة فوكسل ثلاثية الأبعاد متفرقة. يخزن كل فوكسل مشغول قيمة عتامة واحدة بالإضافة إلى معاملات توافقية كروية تقوم بتشفير اللون المعتمد على العرض. ولعرض بكسل، يقوم النظام بإدخال هذه القيم بشكل ثلاثي على طول الشعاع ويقوم بتركيبها باستخدام عرض الحجم القياسي. نظرًا لعدم وجود شبكة، تم تحسين الأمر برمته مباشرةً من خلال نزول متدرج على قيم فوكسل، وضبطه من أجل السلاسة. النتيجة الرئيسية: جودة مماثلة لـ NeRF، تم تدريبها في دقائق على وحدة معالجة رسومات واحدة.

البصيرة الفنية

اللون المعتمد على العرض هو الجزء الذكي. بدلاً من إخراج شبكة RGB لكل زاوية عرض، يقوم كل فوكسل بتخزين مجموعة صغيرة من معاملات التوافقيات الكروية (SH) لكل قناة لون. يؤدي تقييم أساس SH في اتجاه الشعاع إلى إعادة بناء كيفية تغير لون تلك النقطة مع وجهة النظر - مما يؤدي إلى التقاط الضوء والانعكاسات المرآوية. العتامة مستقلة عن الاتجاه. الاستيفاء ثلاثي الخطوط القابل للتمييز بالإضافة إلى عرض الحجم يجعل كل قيمة فوكسل قابلة للتدريب مباشرة، لذا فإن التحسين يكون ملائمًا بشكل مباشر وخالي من الشبكة على نمط المربعات الصغرى.

إتقان حقول Plenoxels و Voxel Radiance

أظهر Plenoxels أنه يمكنك إعادة بناء مشهد ثلاثي الأبعاد بنتائج بجودة NeRF دون أي شبكة عصبية على الإطلاق - مجرد شبكة من وحدات voxels تخزن اللون والكثافة. والنتيجة هي أن التدريب أسرع بنحو 100 مرة من NeRF الأصلي مع مطابقة الجودة البصرية. تنتمي Plenoxels وVoxel Radiance Fields إلى مسارات عمل الرؤية الحاسوبية التي تفسر أو تولد الوسائط المرئية للتحليل والعمليات والإبداع. لبناء فهم عميق، تعامل مع Plenoxels وVoxel Radiance Fields كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تعمل الفرق القوية التي تستخدم Plenoxels وVoxel Radiance Fields على موازنة الدقة مع الحقائق التشغيلية مثل جودة البيانات وتباين الإضاءة واتساق الملصقات. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع. وفي الوقت نفسه، يمكن أن تصبح حقوق الصور والموافقة مخاطر قانونية إذا كان المصدر غير واضح. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع.

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن للفرق الإبداعية إنشاء نماذج أولية للمفاهيم بشكل أسرع مع عدد أقل من المراجعات اليدوية.

يمكن للفرق الإبداعية إنشاء نماذج أولية للمفاهيم بشكل أسرع مع عدد أقل من المراجعات اليدوية. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن أن تستخدم العمليات إشارات الصور والفيديو التي كان من الصعب معالجتها في السابق.

يمكن أن تستخدم العمليات إشارات الصور والفيديو التي كان من الصعب معالجتها في السابق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل بلينوكسيلز وحقول إشعاع فوكسل

أثبت بلينوكسيلز أن التمثيل، وليس الشبكة العصبية، هو الذي يحرك جودة NeRF، وهو اكتشاف أعاد تشكيل المجال. لقد ألهمت بشكل مباشر أساليب صريحة ومختلطة مثل شبكات التجزئة الخاصة بـ Instant-NGP، وفي النهاية، 3D Gaussian Splatting، التي تهيمن الآن على عرض التألق في الوقت الفعلي. توقع استمرار الحركة نحو البدائيات الصريحة والصديقة لوحدة معالجة الرسومات والتي يتم تدريبها في ثوانٍ وعرضها في الوقت الفعلي، مع استخدام الشبكات العصبية بشكل انتقائي بدلاً من استخدامها كمخزن للمشهد الأساسي.

التنفيذ في العالم الحقيقي

إعادة بناء الكائن الذي تم التقاطه بسرعة وتحويله إلى أصل ثلاثي الأبعاد في دقائق معدودة للتجارة الإلكترونية أو رقمنة المتحف، بدلاً من ساعات الانتظار.

النماذج الأولية السريعة لتوليف الرؤية الجديدة على وحدة معالجة الرسومات للمستهلك الواحد للبحث والتعليم.

إنشاء مشاهد فوكسل واضحة وقابلة للتحرير يمكن للفنانين فحصها وتهذيبها مباشرة، على عكس أوزان الشبكة غير الشفافة.

بمثابة مثال تعليمي على أن تمثيل المشهد، وليس التعلم العميق، هو ما ينتج نتائج واقعية.

أنماط التنفيذ

مجالات Plenoxels وVoxel Radiance في الممارسة العملية

إعادة بناء الكائن الذي تم التقاطه بسرعة وتحويله إلى أصل ثلاثي الأبعاد في دقائق معدودة للتجارة الإلكترونية أو رقمنة المتحف، بدلاً من ساعات الانتظار.

إعادة بناء كائن تم التقاطه بسرعة إلى أصل ثلاثي الأبعاد في دقائق للتجارة الإلكترونية أو رقمنة المتاحف، بدلاً من ساعات الانتظار، تحصل الفرق عادةً على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الخطأ مع مرور الوقت.

مجالات Plenoxels وVoxel Radiance في الممارسة العملية

النماذج الأولية السريعة لتوليف الرؤية الجديدة على وحدة معالجة الرسومات للمستهلك الواحد للبحث والتعليم.

النماذج الأولية السريعة لتوليف العرض الجديد على وحدة معالجة الرسومات لمستهلك واحد للبحث والتعليم عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

مجالات Plenoxels وVoxel Radiance في الممارسة العملية

إنشاء مشاهد فوكسل واضحة وقابلة للتحرير يمكن للفنانين فحصها وتهذيبها مباشرة، على عكس أوزان الشبكة غير الشفافة.

إنشاء مشاهد فوكسل واضحة وقابلة للتحرير يمكن للفنانين فحصها وتهذيبها مباشرة، على عكس أوزان الشبكة غير الشفافة، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

مجالات Plenoxels وVoxel Radiance في الممارسة العملية

بمثابة مثال تعليمي على أن تمثيل المشهد، وليس التعلم العميق، هو ما ينتج نتائج واقعية.

بمثابة مثال تعليمي على أن تمثيل المشهد، وليس التعلم العميق، هو ما ينتج نتائج واقعية. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

يمكن أن تصبح حقوق الصور والموافقة مخاطر قانونية إذا كان المصدر غير واضح.

!

يمكن أن يختلف أداء النموذج عبر الإضاءة والتركيبة السكانية والبيئات.

!

قد تمر الإيجابيات الكاذبة دون أن يلاحظها أحد ما لم تتم مراقبة عتبات الثقة.

خارطة طريق التنفيذ

1

تحديد معايير القبول لتكاليف الدقة والاستدعاء والخطأ.

تحديد معايير القبول لتكاليف الدقة والاستدعاء والخطأ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

اختبار مع البيانات التي تتوافق مع ظروف الإنتاج الحقيقية.

اختبار مع البيانات التي تتوافق مع ظروف الإنتاج الحقيقية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

أضف مراجعة بشرية للتنبؤات منخفضة الثقة أو عالية التأثير.

أضف مراجعة بشرية للتنبؤات منخفضة الثقة أو عالية التأثير. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

تتبع انحراف النموذج وإعادة التحقق من صحته بعد تغيير الكاميرا أو مجموعة البيانات.

تتبع انحراف النموذج وإعادة التحقق من صحته بعد تغيير الكاميرا أو مجموعة البيانات. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف