نظرة عامة
يعد Null-text Inversion تقنية تتيح لك تحرير صورة حقيقية باستخدام نموذج نشر يعتمد على النص مثل Stable Diffusion مع الحفاظ على كل شيء لم تطلب تغييره كما هو تمامًا. إنه يسد الفجوة بين إنشاء صور جديدة وإعادة بناء وتحرير الصور الموجودة لديك بالفعل بأمانة.
ينتمي Null-Text Inversion إلى عمليات سير عمل الرؤية الحاسوبية التي تفسر أو تولد وسائط مرئية للتحليل والعمليات والإبداع.
الغوص العميق
لتحرير صورة حقيقية باستخدام نموذج الانتشار، عليك أولاً تشغيل عملية الإنشاء بشكل عكسي للعثور على التشويش الذي قد يعيد إنشائها. هناك طريقة سريعة تسمى انعكاس DDIM تقوم بذلك ولكنها تنحرف، لذا تبدو عملية إعادة البناء خاطئة بعض الشيء. إن التوجيه الخالي من المصنف، والذي يعزز مدى قوة مطالبات النص بتوجيه الصورة، يؤدي إلى تضخيم هذا الانجراف بشكل سيئ. يعمل انعكاس النص الخالي، الذي قدمه باحثو Google في عام 2022، على إصلاح هذه المشكلة عن طريق ترك النموذج مجمداً وبدلاً من ذلك تحسين تضمين النص "الفارغ" (الفارغ) المستخدم في التوجيه، واحد لكل خطوة زمنية تقلل الضوضاء. يؤدي هذا إلى تثبيت إعادة البناء مرة أخرى على الصورة الأصلية بحيث تؤدي التعديلات اللاحقة، مثل تحويل "كلب" إلى "قطة"، إلى تغيير المحتوى المقصود فقط.
البصيرة الفنية
تستقر التوجيهات الخالية من المصنفات بين التنبؤ المشروط (مع المطالبة) والتنبؤ غير المشروط (مع تضمين المطالبة الفارغة). يحافظ انعكاس النص الخالي على الموجه الحقيقي والأوزان ثابتة، ويحسن التدرج فقط هذا التضمين الفارغ في كل خطوة من خطوات النشر الخمسين تقريبًا بحيث يتتبع المسار الموجه مسار DDIM المحسوب مسبقًا. والنتيجة هي إعادة بناء تقترب من الكمال مع قوة توجيه كاملة، مما يترك الموجه حرًا لإجراء تعديلات دقيقة.
إتقان عكس النص الخالي
يعد Null-text Inversion تقنية تتيح لك تحرير صورة حقيقية باستخدام نموذج نشر يعتمد على النص مثل Stable Diffusion مع الحفاظ على كل شيء لم تطلب تغييره كما هو تمامًا. إنه يسد الفجوة بين إنشاء صور جديدة وإعادة بناء وتحرير الصور الموجودة لديك بالفعل بأمانة. ينتمي Null-Text Inversion إلى عمليات سير عمل الرؤية الحاسوبية التي تفسر أو تولد وسائط مرئية للتحليل والعمليات والإبداع. لبناء فهم عميق، تعامل مع Null-Text Inversion كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.
من الناحية العملية، تعمل الفرق القوية التي تستخدم Null-Text Inversion على موازنة الدقة مع الحقائق التشغيلية مثل جودة البيانات، وتباين الإضاءة، واتساق الملصقات. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.
يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع. وفي الوقت نفسه، يمكن أن تصبح حقوق الصور والموافقة مخاطر قانونية إذا كان المصدر غير واضح. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.
التأثير الاستراتيجي
يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع.
يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
يمكن للفرق الإبداعية إنشاء نماذج أولية للمفاهيم بشكل أسرع مع عدد أقل من المراجعات اليدوية.
يمكن للفرق الإبداعية إنشاء نماذج أولية للمفاهيم بشكل أسرع مع عدد أقل من المراجعات اليدوية. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
يمكن أن تستخدم العمليات إشارات الصور والفيديو التي كان من الصعب معالجتها في السابق.
يمكن أن تستخدم العمليات إشارات الصور والفيديو التي كان من الصعب معالجتها في السابق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
التنفيذ في العالم الحقيقي
تعديل صورة الإجازة الحقيقية بحيث تصبح السيارة المتوقفة بلون مختلف بينما يبقى الشارع والناس والإضاءة دون تغيير
تبديل سلالة حيوان أليف حقيقي في صورة عائلية دون تغيير الخلفية أو الوضع
تغيير موسم صورة المناظر الطبيعية (أوراق الشجر من الصيف إلى الخريف) عن طريق تحرير الكلمة السريعة فقط
تشغيل التعديلات المحلية بأسلوب "المطالبة بالمطالبة" على الصور التي تم تحميلها بواسطة المستخدم داخل العروض التوضيحية للبحث وتطبيقات التحرير
أنماط التنفيذ
انعكاس النص الخالي في الممارسة العملية
تعديل صورة الإجازة الحقيقية بحيث تصبح السيارة المتوقفة بلون مختلف بينما يبقى الشارع والناس والإضاءة دون تغيير.
تحرير صورة إجازة حقيقية بحيث تصبح السيارة المتوقفة بلون مختلف بينما يظل الشارع والأشخاص والإضاءة دون تغيير، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
انعكاس النص الخالي في الممارسة العملية
تبديل سلالة حيوان أليف حقيقي في صورة عائلية دون تغيير الخلفية أو الوضع.
تبديل سلالة حيوان أليف حقيقي في صورة عائلية دون تغيير الخلفية أو الوضعية، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
انعكاس النص الخالي في الممارسة العملية
تغيير موسم صورة المناظر الطبيعية (أوراق الشجر من الصيف إلى الخريف) عن طريق تحرير الكلمة السريعة فقط.
تغيير موسم صورة المناظر الطبيعية (أوراق الشجر من الصيف إلى الخريف) عن طريق تحرير الكلمة السريعة فقط. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
انعكاس النص الخالي في الممارسة العملية
تشغيل التعديلات المحلية بأسلوب "مطالبة إلى مطالبة" على الصور التي تم تحميلها بواسطة المستخدم داخل العروض التوضيحية للبحث وتطبيقات التحرير.
تشغيل عمليات التحرير المحلية بأسلوب "المطالبة إلى المطالبة" على الصور التي تم تحميلها من قبل المستخدم داخل العروض التوضيحية للبحث وتطبيقات التحرير، تحصل الفرق عادةً على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
المخاطر والدرابزين
يمكن أن تصبح حقوق الصور والموافقة مخاطر قانونية إذا كان المصدر غير واضح.
يمكن أن يختلف أداء النموذج عبر الإضاءة والتركيبة السكانية والبيئات.
قد تمر الإيجابيات الكاذبة دون أن يلاحظها أحد ما لم تتم مراقبة عتبات الثقة.
خارطة طريق التنفيذ
تحديد معايير القبول لتكاليف الدقة والاستدعاء والخطأ.
تحديد معايير القبول لتكاليف الدقة والاستدعاء والخطأ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
اختبار مع البيانات التي تتوافق مع ظروف الإنتاج الحقيقية.
اختبار مع البيانات التي تتوافق مع ظروف الإنتاج الحقيقية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
أضف مراجعة بشرية للتنبؤات منخفضة الثقة أو عالية التأثير.
أضف مراجعة بشرية للتنبؤات منخفضة الثقة أو عالية التأثير. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
تتبع انحراف النموذج وإعادة التحقق من صحته بعد تغيير الكاميرا أو مجموعة البيانات.
تتبع انحراف النموذج وإعادة التحقق من صحته بعد تغيير الكاميرا أو مجموعة البيانات. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.