نظرة عامة
يقوم توليد الصور بالانحدار التلقائي ببناء الصور قطعة واحدة في كل مرة، مع التنبؤ بكل رمز مميز من كل شيء تم إنشاؤه قبله. وهذا مهم لأن نفس الآلات الرمزية التالية التي تشغل نماذج اللغة يمكنها إنتاج صور متماسكة ويمكن التحكم فيها.
ينتمي إنشاء الصور بالانحدار التلقائي إلى مسارات عمل الرؤية الحاسوبية التي تفسر أو تولد الوسائط المرئية للتحليل والعمليات والإبداع.
الغوص العميق
يتعامل توليد الصور بالانحدار التلقائي مع الصورة كتسلسل ويتنبأ بها عنصرًا بعد عنصر، حيث يكون كل عنصر جديد مشروطًا بجميع العناصر السابقة. تنبأت الأعمال المبكرة مثل PixelRNN وPixelCNN بصور بكسل خام واحدة في كل مرة، ومسح صفًا تلو الآخر، وكان ذلك بطيئًا ولكنه نظيف من الناحية النظرية. بدلاً من ذلك، تقوم الأنظمة الحديثة أولاً بضغط الصورة إلى شبكة من الرموز المميزة المنفصلة باستخدام برنامج تشفير على نمط VQ-VAE، ثم يتنبأ المحول بتلك الرموز المميزة من اليسار إلى اليمين. اتبع DALL-E 1 من OpenAI وParti من Google هذه الوصفة، حيث قاما بإنشاء رموز مميزة للصور مشروطة بمطالبة نصية قبل فك تشفيرها مرة أخرى إلى وحدات البكسل. الميزة الكبرى هي نمذجة الاحتمالية الدقيقة والبنية الموحدة المشتركة مع اللغة. التكلفة متسلسلة وبطيئة لأخذ العينات.
البصيرة الفنية
يقوم النموذج بتحليل الاحتمال المشترك لجميع الرموز المميزة إلى منتج الشروط: p(x) = منتج p(x_i نظرا x_1...x_{i-1}). يفرض المحول ذو الاهتمام السببي (المقنع) أن كل موضع يرى فقط الرموز المميزة السابقة. أثناء التدريب، يتنبأ بكل رمز مميز بالتوازي باستخدام تأثير المعلم، ولكن عند الاستدلال، يجب عليه أخذ عينات من رمز مميز واحد في كل مرة، وتغذية كل رمز مرة أخرى. يقوم كتاب الرموز المتعلم بتعيين الرموز المميزة إلى تصحيحات الصورة، والتي يقوم جهاز فك التشفير بتجميعها إلى وحدات بكسل نهائية.
إتقان توليد الصور الانحدار التلقائي
يقوم توليد الصور بالانحدار التلقائي ببناء الصور قطعة واحدة في كل مرة، مع التنبؤ بكل رمز مميز من كل شيء تم إنشاؤه قبله. وهذا مهم لأن نفس الآلات الرمزية التالية التي تشغل نماذج اللغة يمكنها إنتاج صور متماسكة ويمكن التحكم فيها. ينتمي إنشاء الصور بالانحدار التلقائي إلى مسارات عمل الرؤية الحاسوبية التي تفسر أو تولد الوسائط المرئية للتحليل والعمليات والإبداع. لبناء فهم عميق، يجب التعامل مع إنشاء الصور بالانحدار التلقائي كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.
من الناحية العملية، تعمل الفرق القوية التي تستخدم تقنية إنشاء الصور ذات الانحدار التلقائي على موازنة الدقة مع الحقائق التشغيلية مثل جودة البيانات، وتباين الإضاءة، واتساق الملصقات. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.
يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع. وفي الوقت نفسه، يمكن أن تصبح حقوق الصور والموافقة مخاطر قانونية إذا كان المصدر غير واضح. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.
التأثير الاستراتيجي
يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع.
يمكن للذكاء الاصطناعي المرئي أتمتة مهام الفحص والكشف ووضع العلامات على نطاق واسع. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
يمكن للفرق الإبداعية إنشاء نماذج أولية للمفاهيم بشكل أسرع مع عدد أقل من المراجعات اليدوية.
يمكن للفرق الإبداعية إنشاء نماذج أولية للمفاهيم بشكل أسرع مع عدد أقل من المراجعات اليدوية. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
يمكن أن تستخدم العمليات إشارات الصور والفيديو التي كان من الصعب معالجتها في السابق.
يمكن أن تستخدم العمليات إشارات الصور والفيديو التي كان من الصعب معالجتها في السابق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
التنفيذ في العالم الحقيقي
قام DALL-E 1 بإنشاء صور عن طريق التنبؤ التلقائي بشبكة من الرموز المميزة للصور المنفصلة من تعليق نصي.
قام فريق Google's Parti بتحجيم محول الانحدار التلقائي من النص إلى الصورة إلى 20 مليار معلمة للحصول على مشاهد مفصلة ودقيقة.
أظهر كل من PixelCNN وPixelRNN توليد بكسل تلو الآخر بشكل أولي وما زالا يستخدمان كخطوط أساسية للتدريس للنماذج القائمة على الاحتمالية.
يستخدم MaskGIT وMuse فك تشفير الرموز المميزة المقنعة لتسريع عملية تركيب الصور المستندة إلى الرموز المميزة مع الحفاظ على التدريب على أسلوب الانحدار الذاتي.
أنماط التنفيذ
توليد الصور بالانحدار الذاتي في الممارسة العملية
قام DALL-E 1 بإنشاء صور عن طريق التنبؤ التلقائي بشبكة من الرموز المميزة للصور المنفصلة من تعليق نصي.
تم إنشاء DALL-E 1 صورًا عن طريق التنبؤ التلقائي بشبكة من الرموز المميزة للصور المنفصلة من تعليق نصي، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
توليد الصور بالانحدار الذاتي في الممارسة العملية
قام فريق Google's Parti بتحجيم محول الانحدار التلقائي من النص إلى الصورة إلى 20 مليار معلمة للحصول على مشاهد مفصلة ودقيقة.
قام فريق Google بقياس محول الانحدار التلقائي من النص إلى الصورة إلى 20 مليار معلمة للمشاهد المفصلة والدقيقة. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
توليد الصور بالانحدار الذاتي في الممارسة العملية
أظهر كل من PixelCNN وPixelRNN توليد بكسل تلو الآخر بشكل أولي وما زالا يستخدمان كخطوط أساسية للتدريس للنماذج القائمة على الاحتمالية.
أظهرت PixelCNN وPixelRNN إنشاء بكسل تلو الآخر ولا يزال يتم استخدامهما كخطوط أساسية للتدريس للنماذج القائمة على الاحتمالية. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
توليد الصور بالانحدار الذاتي في الممارسة العملية
يستخدم MaskGIT وMuse فك تشفير الرموز المميزة المقنعة لتسريع عملية تركيب الصور المستندة إلى الرموز المميزة مع الحفاظ على التدريب على أسلوب الانحدار الذاتي.
يستخدم MaskGIT وMuse فك تشفير الرموز المقنعة المتوازية لتسريع عملية تركيب الصور المستندة إلى الرموز المميزة مع الحفاظ على التدريب بأسلوب الانحدار الذاتي. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
المخاطر والدرابزين
يمكن أن تصبح حقوق الصور والموافقة مخاطر قانونية إذا كان المصدر غير واضح.
يمكن أن يختلف أداء النموذج عبر الإضاءة والتركيبة السكانية والبيئات.
قد تمر الإيجابيات الكاذبة دون أن يلاحظها أحد ما لم تتم مراقبة عتبات الثقة.
خارطة طريق التنفيذ
تحديد معايير القبول لتكاليف الدقة والاستدعاء والخطأ.
تحديد معايير القبول لتكاليف الدقة والاستدعاء والخطأ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
اختبار مع البيانات التي تتوافق مع ظروف الإنتاج الحقيقية.
اختبار مع البيانات التي تتوافق مع ظروف الإنتاج الحقيقية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
أضف مراجعة بشرية للتنبؤات منخفضة الثقة أو عالية التأثير.
أضف مراجعة بشرية للتنبؤات منخفضة الثقة أو عالية التأثير. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
تتبع انحراف النموذج وإعادة التحقق من صحته بعد تغيير الكاميرا أو مجموعة البيانات.
تتبع انحراف النموذج وإعادة التحقق من صحته بعد تغيير الكاميرا أو مجموعة البيانات. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.