دليل الذكاء الاصطناعي المرئي

نماذج الاتساق الكامن

نماذج الاتساق الكامن (LCMs) هي تقنية تتيح لمولدات الصور المنتشرة إنتاج صور عالية الجودة في خطوة واحدة إلى أربع خطوات فقط بدلاً من العشرات المعتادة.

نظرة عامة

نماذج الاتساق الكامن (LCMs) هي تقنية تتيح لمولدات الصور المنتشرة إنتاج صور عالية الجودة في خطوة واحدة إلى أربع خطوات فقط بدلاً من العشرات المعتادة. إنها تجعل إنشاء الصور التفاعلية في الوقت الفعلي تقريبًا أمرًا عمليًا حتى على الأجهزة المتواضعة.

تنتمي نماذج الاتساق الكامن إلى مسارات عمل الرؤية الحاسوبية التي تفسر أو تولد وسائط مرئية للتحليل والعمليات والإبداع.

الغوص العميق

تبدأ نماذج الانتشار الكامن القياسية مثل Stable Diffusion من الضوضاء وتقليل الضوضاء بشكل متكرر، وغالبًا ما تحتاج إلى 20 إلى 50 تقييمًا للشبكة لإنشاء صورة واحدة، وهو أمر بطيء. تطبق LCMs، التي قدمها لوه وزملاؤه في عام 2023، التقطير المتسق في الفضاء الكامن لنموذج الانتشار المُدرب مسبقًا. الفكرة الرئيسية: تدريب شبكة من الطلاب على القفز مباشرة إلى النتيجة النظيفة من أي نقطة على طول مسار تقليل الضوضاء، بحيث يتم الوصول إلى نفس الإجابة في خطوة واحدة كبيرة كانت تتطلب في السابق العديد من الخطوات الصغيرة. والنتيجة هي صور حادة في 1 إلى 4 خطوات تقريبًا. تعمل التقنية المصاحبة، LCM-LoRA، على حزم هذا التسريع كمحول إضافي صغير يمكن إسقاطه على نماذج Stable Diffusion الحالية المضبوطة بدقة دون إعادة تدريب الشبكة بأكملها.

البصيرة الفنية

تفرض نماذج الاتساق خاصية "الاتساق الذاتي": أي نقطتين على نفس مسار تقليل الضوضاء (مسار ODE للتدفق الاحتمالي) يجب أن يتم تعيينهما لنفس الصورة النهائية النظيفة. يتم استخلاص الطالب من نموذج نشر المعلم لتلبية ذلك، وتعلم التنبؤ بنقطة نهاية المسار مباشرة. إن العمل في المساحة الكامنة المضغوطة بدلاً من البكسلات يجعل التقطير رخيصًا. ونظرًا لأن تقييمًا واحدًا يمكن أن يقفز عبر المسار، فإن أخذ العينات التكرارية الثقيلة ينهار إلى عدد قليل من الخطوات.

إتقان نماذج الاتساق الكامن

نماذج الاتساق الكامن (LCMs) هي تقنية تتيح لمولدات الصور المنتشرة إنتاج صور عالية الجودة في خطوة واحدة إلى أربع خطوات فقط بدلاً من العشرات المعتادة. إنها تجعل إنشاء الصور التفاعلية في الوقت الفعلي تقريبًا أمرًا عمليًا حتى على الأجهزة المتواضعة. تنتمي نماذج الاتساق الكامن إلى مسارات عمل الرؤية الحاسوبية التي تفسر أو تولد وسائط مرئية للتحليل والعمليات والإبداع. لبناء فهم عميق، تعامل مع نماذج الاتساق الكامن كنموذج تشغيل، وليس كميزة واحدة: حدد النتائج المرغوبة، ووضح الافتراضات، وافصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تعمل الفرق القوية التي تستخدم نماذج الاتساق الكامن على موازنة الدقة مع الحقائق التشغيلية مثل جودة البيانات، وتباين الإضاءة، واتساق الملصقات. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع. وفي الوقت نفسه، يمكن أن تصبح حقوق الصور والموافقة مخاطر قانونية إذا كان المصدر غير واضح. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع.

يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن للفرق الإبداعية إنشاء نماذج أولية للمفاهيم بشكل أسرع مع عدد أقل من المراجعات اليدوية.

يمكن للفرق الإبداعية إنشاء نماذج أولية للمفاهيم بشكل أسرع مع عدد أقل من المراجعات اليدوية. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن أن تستخدم العمليات إشارات الصور والفيديو التي كان من الصعب معالجتها في السابق.

يمكن أن تستخدم العمليات إشارات الصور والفيديو التي كان من الصعب معالجتها في السابق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل نماذج الاتساق الكامن

أصبح الآن الجيل قليل الخطوات هو الاتجاه السائد، مع خلفاء مثل SDXL-Turbo، وتحسينات LCM، وطرق التقطير التنافسي التي تدفع الجودة بخطوة أو خطوتين. توقع أن يؤدي ذلك إلى تشغيل تحرير الصور المباشر باستخدام الفرشاة أثناء التنقل، وإنشاء إطارات الفيديو في الوقت الفعلي، والتوليد على الجهاز على الهواتف. تعمل الحدود على سد فجوة الجودة الصغيرة من خلال النشر الكامل متعدد الخطوات وتوسيع نطاق التقطير المتسق ليشمل الفيديو وثلاثي الأبعاد، حيث يكون التوفير الناتج عن قطع عدد الخطوات أكثر دراماتيكية.

التنفيذ في العالم الحقيقي

أدوات اللوحة في الوقت الفعلي التي تعمل على تحديث الصورة التي تم إنشاؤها أثناء الكتابة أو الرسم، مع تأخر قريب من الصفر

تشغيل إنشاء صور Stable Diffusion على جهاز كمبيوتر محمول أو وحدة معالجة رسومات الهاتف في جزء من الثانية

إسقاط محول LCM-LoRA على نموذج موجود تم ضبطه بدقة لتسريعه على الفور دون إعادة التدريب

إنشاء مجموعات كبيرة من الصور بتكلفة زهيدة لاستكشاف التصميم عن طريق قطع الخطوات من ~30 إلى ~4

أنماط التنفيذ

نماذج الاتساق الكامن في الممارسة العملية

أدوات اللوحة في الوقت الفعلي التي تعمل على تحديث الصورة التي تم إنشاؤها أثناء الكتابة أو الرسم، مع تأخر قريب من الصفر.

أدوات اللوحة في الوقت الفعلي التي تعمل على تحديث الصورة التي تم إنشاؤها أثناء الكتابة أو الرسم، مع تأخر قريب من الصفر عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

نماذج الاتساق الكامن في الممارسة العملية

تشغيل إنشاء صور Stable Diffusion على جهاز كمبيوتر محمول أو وحدة معالجة رسومات الهاتف في جزء من الثانية.

تشغيل إنشاء صور Stable Diffusion على جهاز كمبيوتر محمول أو وحدة معالجة رسومات الهاتف في جزء من الثانية عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

نماذج الاتساق الكامن في الممارسة العملية

إسقاط محول LCM-LoRA على نموذج موجود تم ضبطه بدقة لتسريعه على الفور دون إعادة التدريب.

إسقاط محول LCM-LoRA على نموذج موجود تم ضبطه بدقة لتسريعه على الفور دون إعادة تدريب تحصل الفرق عادةً على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

نماذج الاتساق الكامن في الممارسة العملية

إنشاء مجموعات كبيرة من الصور بتكلفة زهيدة لاستكشاف التصميم عن طريق قطع الخطوات من ~30 إلى ~4.

إنشاء مجموعات كبيرة من الصور بتكلفة زهيدة لاستكشاف التصميم عن طريق خفض الخطوات من ~30 إلى ~4 عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

يمكن أن تصبح حقوق الصور والموافقة مخاطر قانونية إذا كان المصدر غير واضح.

!

يمكن أن يختلف أداء النموذج عبر الإضاءة والتركيبة السكانية والبيئات.

!

قد تمر الإيجابيات الكاذبة دون أن يلاحظها أحد ما لم تتم مراقبة عتبات الثقة.

خارطة طريق التنفيذ

1

تحديد معايير القبول لتكاليف الدقة والاستدعاء والخطأ.

تحديد معايير القبول لتكاليف الدقة والاستدعاء والخطأ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

اختبار مع البيانات التي تتوافق مع ظروف الإنتاج الحقيقية.

اختبار مع البيانات التي تتوافق مع ظروف الإنتاج الحقيقية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

أضف مراجعة بشرية للتنبؤات منخفضة الثقة أو عالية التأثير.

أضف مراجعة بشرية للتنبؤات منخفضة الثقة أو عالية التأثير. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

تتبع انحراف النموذج وإعادة التحقق من صحته بعد تغيير الكاميرا أو مجموعة البيانات.

تتبع انحراف النموذج وإعادة التحقق من صحته بعد تغيير الكاميرا أو مجموعة البيانات. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف