دليل الذكاء الاصطناعي المرئي

DragGAN التحرير التفاعلي

يتيح لك DragGAN تحرير الصورة عن طريق سحب النقاط حرفيًا: التقط نقطة واسحبها إلى الهدف، وستتشوه الصورة بشكل واقعي، مع تغيير الوضع أو الشكل أو التعبير.

نظرة عامة

يتيح لك DragGAN تحرير الصورة عن طريق سحب النقاط حرفيًا: التقط نقطة واسحبها إلى الهدف، وستتشوه الصورة بشكل واقعي، مع تغيير الوضع أو الشكل أو التعبير. إنه مهم لأنه يجعل المعالجة الدقيقة والبديهية للصور ممكنة بدون أشرطة تمرير أو أقنعة أو مطالبات نصية.

ينتمي DragGAN Interactive Editing إلى مسارات عمل رؤية الكمبيوتر التي تفسر أو تولد وسائط مرئية للتحليل والعمليات والإبداع.

الغوص العميق

قدم DragGAN، من Pan وTewari وLeimkuhler وزملاؤه في Max Planck وشركاؤه (SIGGRAPH 2023)، التحرير التفاعلي القائم على النقاط للصور التي تم إنشاؤها بواسطة GAN. يضع المستخدم نقطة "مقبض" واحدة أو أكثر على الصورة ونقاط "الهدف" المقابلة حيث يجب التحرك. يقوم DragGAN بعد ذلك بدفع الكود الكامن بشكل متكرر بحيث ينزلق المحتوى الموجود أسفل كل مقبض نحو هدفه بينما تظل بقية الصورة متماسكة. يمكنك إطالة أرجل حيوان ما، أو جعل شخص ما يبتسم، أو تدوير سيارة، أو تغيير معالم المناظر الطبيعية، كل ذلك عن طريق السحب. والأهم من ذلك، أن عمليات التحرير تحترم الصورة المتعددة التي تم تعلمها، بحيث تظل النتائج واقعية بدلاً من تلطيخ وحدات البكسل. يقيد القناع الاختياري المناطق المسموح لها بالتحرك، مما يوفر تحكمًا موضعيًا دقيقًا.

البصيرة الفنية

يعمل DragGAN في المساحة الكامنة والميزات الخاصة بـ GAN المُدربة مسبقًا. ويستخدم خطوتين متناوبتين: الإشراف على الحركة، الذي يحول الكود الكامن بحيث تتحرك الميزات القريبة من كل مقبض نحو الاتجاه المستهدف، وتتبع النقطة، الذي يعيد تحديد موقع المقبض لمتابعة الميزة التي تم تثبيتها عليها باستخدام بحث أقرب جار في خرائط الميزات. يؤدي تكرار هذه الخطوات إلى تحريك الصورة على طول مشعب GAN، مما ينتج عنه تشوهات سلسة وواقعية.

إتقان التحرير التفاعلي DragGAN

يتيح لك DragGAN تحرير الصورة عن طريق سحب النقاط حرفيًا: التقط نقطة واسحبها إلى الهدف، وستتشوه الصورة بشكل واقعي، مع تغيير الوضع أو الشكل أو التعبير. إنه مهم لأنه يجعل المعالجة الدقيقة والبديهية للصور ممكنة بدون أشرطة تمرير أو أقنعة أو مطالبات نصية. ينتمي DragGAN Interactive Editing إلى مسارات عمل رؤية الكمبيوتر التي تفسر أو تولد وسائط مرئية للتحليل والعمليات والإبداع. لبناء فهم عميق، تعامل مع DragGAN Interactive Editing كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تعمل الفرق القوية التي تستخدم DragGAN Interactive Editing على موازنة الدقة مع الحقائق التشغيلية مثل جودة البيانات وتباين الإضاءة واتساق الملصقات. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع. وفي الوقت نفسه، يمكن أن تصبح حقوق الصور والموافقة مخاطر قانونية إذا كان المصدر غير واضح. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع.

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن للفرق الإبداعية إنشاء نماذج أولية للمفاهيم بشكل أسرع مع عدد أقل من المراجعات اليدوية.

يمكن للفرق الإبداعية إنشاء نماذج أولية للمفاهيم بشكل أسرع مع عدد أقل من المراجعات اليدوية. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن أن تستخدم العمليات إشارات الصور والفيديو التي كان من الصعب معالجتها في السابق.

يمكن أن تستخدم العمليات إشارات الصور والفيديو التي كان من الصعب معالجتها في السابق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل التحرير التفاعلي DragGAN

أثار DragGAN أعمال متابعة سريعة جلبت التحكم القائم على السحب إلى نماذج الانتشار (مثل DragDiffusion وFreeDrag)، التي تتعامل مع الصور الحقيقية والمحتوى التعسفي بقوة أكبر من شبكات GAN وحدها. توقع أن يصبح تحرير السحب أداة قياسية في البرامج الإبداعية، مقترنًا بعناصر التحكم في النص والمنطقة، ويمتد إلى الفيديو والأبعاد الثلاثية حتى يتمكن المستخدمون من وضع الكائنات عبر الإطارات أو إعادة تشكيل الشبكات بشكل تفاعلي، كل ذلك مع الحفاظ على الواقعية.

التنفيذ في العالم الحقيقي

ضبط تعبيرات الصورة أو اتجاه النظر أو تصفيفة الشعر عن طريق سحب نقاط الوجه

تغيير وضعية الحيوان أو السيارة واتجاهها، مثل تدوير السيارة أو تغيير موضع رأس الأسد

إعادة تشكيل صور المنتج (إطالة الكائنات أو توسيعها أو إعادة وضعها) لنماذج التصميم بالحجم الطبيعي

ضبط صور المناظر الطبيعية أو صور الموضة عن طريق سحب الخطوط، مثل تغيير أشكال الجبال أو ملاءمة الملابس

أنماط التنفيذ

DragGAN التحرير التفاعلي في الممارسة العملية

ضبط تعبيرات الصورة أو اتجاه النظر أو تصفيفة الشعر عن طريق سحب نقاط الوجه.

ضبط تعبير الصورة أو اتجاه النظر أو تصفيفة الشعر عن طريق سحب نقاط الوجه عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الخطأ بمرور الوقت.

DragGAN التحرير التفاعلي في الممارسة العملية

تغيير وضعية واتجاه حيوان أو مركبة، مثل تدوير السيارة أو تغيير وضع رأس الأسد.

تغيير وضعية الحيوان أو المركبة واتجاهها، مثل تدوير السيارة أو تغيير موضع رأس الأسد، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري للحالات الطرفية، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

DragGAN التحرير التفاعلي في الممارسة العملية

إعادة تشكيل صور المنتج (إطالة الكائنات أو توسيعها أو إعادة وضعها) لنماذج التصميم بالحجم الطبيعي.

إعادة تشكيل صور المنتج (إطالة الكائنات أو توسيعها أو إعادة وضعها) لنماذج التصميم بالحجم الطبيعي عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

DragGAN التحرير التفاعلي في الممارسة العملية

ضبط صور المناظر الطبيعية أو صور الموضة عن طريق سحب الخطوط، مثل تغيير أشكال الجبال أو ملاءمة الملابس.

ضبط صور المناظر الطبيعية أو صور الموضة عن طريق سحب الخطوط، مثل تغيير أشكال الجبال أو ملاءمة الملابس، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

يمكن أن تصبح حقوق الصور والموافقة مخاطر قانونية إذا كان المصدر غير واضح.

!

يمكن أن يختلف أداء النموذج عبر الإضاءة والتركيبة السكانية والبيئات.

!

قد تمر الإيجابيات الكاذبة دون أن يلاحظها أحد ما لم تتم مراقبة عتبات الثقة.

خارطة طريق التنفيذ

1

تحديد معايير القبول لتكاليف الدقة والاستدعاء والخطأ.

تحديد معايير القبول لتكاليف الدقة والاستدعاء والخطأ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

اختبار مع البيانات التي تتوافق مع ظروف الإنتاج الحقيقية.

اختبار مع البيانات التي تتوافق مع ظروف الإنتاج الحقيقية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

أضف مراجعة بشرية للتنبؤات منخفضة الثقة أو عالية التأثير.

أضف مراجعة بشرية للتنبؤات منخفضة الثقة أو عالية التأثير. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

تتبع انحراف النموذج وإعادة التحقق من صحته بعد تغيير الكاميرا أو مجموعة البيانات.

تتبع انحراف النموذج وإعادة التحقق من صحته بعد تغيير الكاميرا أو مجموعة البيانات. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف