دليل الذكاء الاصطناعي المرئي

DreamFusion وأخذ عينات التقطير

يقوم DreamFusion بإنشاء كائنات ثلاثية الأبعاد من النص باستخدام نموذج نشر الصور ثنائي الأبعاد كناقد، ولا يتدرب مطلقًا على أي بيانات ثلاثية الأبعاد.

نظرة عامة

يقوم DreamFusion بإنشاء كائنات ثلاثية الأبعاد من النص باستخدام نموذج نشر الصور ثنائي الأبعاد كناقد، ولا يتدرب مطلقًا على أي بيانات ثلاثية الأبعاد. أصبح اختراعها الأساسي، وهو Score Distillation Sampling، الوصفة الأساسية لمجال تحويل النص إلى ثلاثي الأبعاد بأكمله.

ينتمي DreamFusion وScore Distillation Sampling إلى عمليات سير عمل الرؤية الحاسوبية التي تفسر أو تولد الوسائط المرئية للتحليل والعمليات والإبداع.

الغوص العميق

تساءل DreamFusion، من Google في عام 2022: هل يمكن لنموذج تحويل النص إلى صورة ثنائي الأبعاد تعليم مشهد ثلاثي الأبعاد أن يبدو صحيحًا من كل زاوية؟ إنه يعمل على تحسين NeRF (مجال الإشعاع العصبي) بحيث يتم تسجيل العروض من وجهات نظر الكاميرا العشوائية، عند التشويش وعرضها لنموذج الانتشار المجمد (Imagen)، كصور معقولة للمطالبة النصية. والأهم من ذلك أنه لا يستخدم أي بيانات تدريب ثلاثية الأبعاد. الإنجاز هو أخذ عينات التقطير (SDS): بدلاً من الانتشار العكسي من خلال شبكة U-Net الباهظة الثمن لنموذج الانتشار، يستخدم SDS الضوضاء المتوقعة للنموذج كإشارة متدرجة مباشرة على وحدات البكسل المعروضة. يؤدي تكرار ذلك عبر آلاف وجهات النظر إلى نحت أصل ثلاثي الأبعاد متماسك، مكتمل بالهندسة والمظهر المعتمد على العرض، من جملة واحدة.

البصيرة الفنية

يعامل SDS نموذج الانتشار كوظيفة تسجيل مجمدة. إنه يعرض NeRF، ويضيف ضوضاء، ويطلب من U-Net الانتشار التنبؤ بهذا التشويش، ويحسب التدرج حيث يتم دفع (الضوضاء المتوقعة مطروحًا منها الضوضاء المضافة) مرة أخرى إلى الصورة المقدمة وبالتالي أوزان NeRF. تخطي U-Net Jacobian يجعلها قابلة للتتبع. هناك حاجة إلى إرشادات عالية خالية من التصنيف (حوالي 100) للحصول على نتائج حادة، مما يؤدي إلى ظهور "DreamFusion" المميز المشبع بشكل مفرط، والضبابية في بعض الأحيان.

إتقان DreamFusion وأخذ عينات التقطير

يقوم DreamFusion بإنشاء كائنات ثلاثية الأبعاد من النص باستخدام نموذج نشر الصور ثنائي الأبعاد كناقد، ولا يتدرب مطلقًا على أي بيانات ثلاثية الأبعاد. أصبح اختراعها الأساسي، وهو Score Distillation Sampling، الوصفة الأساسية لمجال تحويل النص إلى ثلاثي الأبعاد بأكمله. ينتمي DreamFusion وScore Distillation Sampling إلى عمليات سير عمل الرؤية الحاسوبية التي تفسر أو تولد الوسائط المرئية للتحليل والعمليات والإبداع. لبناء فهم عميق، تعامل مع DreamFusion وScore Distillation Sampling كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تعمل الفرق القوية التي تستخدم DreamFusion وScore Distillation Sampling على موازنة الدقة مع الحقائق التشغيلية مثل جودة البيانات وتباين الإضاءة واتساق الملصقات. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع. وفي الوقت نفسه، يمكن أن تصبح حقوق الصور والموافقة مخاطر قانونية إذا كان المصدر غير واضح. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع.

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن للفرق الإبداعية إنشاء نماذج أولية للمفاهيم بشكل أسرع مع عدد أقل من المراجعات اليدوية.

يمكن للفرق الإبداعية إنشاء نماذج أولية للمفاهيم بشكل أسرع مع عدد أقل من المراجعات اليدوية. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن أن تستخدم العمليات إشارات الصور والفيديو التي كان من الصعب معالجتها في السابق.

يمكن أن تستخدم العمليات إشارات الصور والفيديو التي كان من الصعب معالجتها في السابق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل DreamFusion وأخذ عينات التقطير

أنتج SDS خطًا غنيًا من العمل لإصلاح نقاط ضعفه: Magic3D من أجل الدقة والسرعة، وProlificDreamer's Variational Score Distillation من أجل مخرجات أكثر وضوحًا وتنوعًا، وطرق تهاجم قطعة أثرية "Janus" متعددة الوجوه. يقوم هذا المجال بشكل متزايد بإقران SDS مع نشرات العرض المتعددة والتمثيلات ثلاثية الأبعاد السريعة مثل Gaussian Splatting. توقع أن ينمو تحويل النص إلى ثلاثي الأبعاد بشكل أسرع وأكثر دقة هندسيًا، مما يؤدي إلى تضييق الفجوة مع الأصول المصممة يدويًا.

التنفيذ في العالم الحقيقي

إنشاء نموذج ثلاثي الأبعاد لـ "صورة DSLR لسنجاب يرتدي قبعة صغيرة" من النص وحده

إنشاء مسودة اللعبة وأصول الواقع المعزز بدون النحت اليدوي ثلاثي الأبعاد

إنتاج شبكات قابلة للتصدير يقوم الفنانون بتحسينها بدلاً من بنائها من الصفر

ابحث عن خطوط الأساس لتقييم أساليب تحويل النص إلى ثلاثية الأبعاد الأحدث مقابل SDS

أنماط التنفيذ

DreamFusion وأخذ عينات التقطير في الممارسة العملية

إنشاء نموذج ثلاثي الأبعاد لـ "صورة DSLR لسنجاب يرتدي قبعة صغيرة" من النص وحده.

إنشاء نموذج ثلاثي الأبعاد لـ "صورة DSLR لسنجاب يرتدي قبعة صغيرة" من النص وحده عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

DreamFusion وأخذ عينات التقطير في الممارسة العملية

إنشاء مسودة اللعبة وأصول الواقع المعزز بدون النحت اليدوي ثلاثي الأبعاد.

إنشاء مسودة اللعبة وأصول الواقع المعزز بدون النحت اليدوي ثلاثي الأبعاد عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

DreamFusion وأخذ عينات التقطير في الممارسة العملية

إنتاج شبكات قابلة للتصدير يقوم الفنانون بتحسينها بدلاً من بنائها من الصفر.

إنتاج شبكات قابلة للتصدير يقوم الفنانون بتحسينها بدلاً من بنائها من الصفر عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

DreamFusion وأخذ عينات التقطير في الممارسة العملية

ابحث عن خطوط الأساس لتقييم أساليب تحويل النص إلى ثلاثية الأبعاد الأحدث مقابل SDS.

عادةً ما تحصل خطوط الأساس البحثية لتقييم أساليب تحويل النص إلى ثلاثية الأبعاد الأحدث ضد فرق SDS على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

يمكن أن تصبح حقوق الصور والموافقة مخاطر قانونية إذا كان المصدر غير واضح.

!

يمكن أن يختلف أداء النموذج عبر الإضاءة والتركيبة السكانية والبيئات.

!

قد تمر الإيجابيات الكاذبة دون أن يلاحظها أحد ما لم تتم مراقبة عتبات الثقة.

خارطة طريق التنفيذ

1

تحديد معايير القبول لتكاليف الدقة والاستدعاء والخطأ.

تحديد معايير القبول لتكاليف الدقة والاستدعاء والخطأ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

اختبار مع البيانات التي تتوافق مع ظروف الإنتاج الحقيقية.

اختبار مع البيانات التي تتوافق مع ظروف الإنتاج الحقيقية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

أضف مراجعة بشرية للتنبؤات منخفضة الثقة أو عالية التأثير.

أضف مراجعة بشرية للتنبؤات منخفضة الثقة أو عالية التأثير. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

تتبع انحراف النموذج وإعادة التحقق من صحته بعد تغيير الكاميرا أو مجموعة البيانات.

تتبع انحراف النموذج وإعادة التحقق من صحته بعد تغيير الكاميرا أو مجموعة البيانات. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف