دليل الأساسيات

زيادة البيانات

تعمل زيادة البيانات على توسيع مجموعة التدريب بشكل مصطنع عن طريق إنشاء نسخ معدلة من الأمثلة الموجودة - مثل تقليب الصور أو اقتصاصها.

نظرة عامة

تعمل زيادة البيانات على توسيع مجموعة التدريب بشكل مصطنع عن طريق إنشاء نسخ معدلة من الأمثلة الموجودة - مثل تقليب الصور أو اقتصاصها. وهذا مهم لأن البيانات الأكثر تنوعًا تقلل من التجاوز وتساعد النماذج على التعميم على المدخلات التي لم ترها.

يوجد تعزيز البيانات في مجموعة أدوات الذكاء الاصطناعي الأساسية. عندما تفهمها، يصبح تقييم موضوعات الذكاء الاصطناعي الأخرى ومقارنتها أسهل.

الغوص العميق

تؤدي زيادة البيانات إلى إنشاء أمثلة تدريبية جديدة عن طريق تطبيق تحويلات الحفاظ على التسمية على البيانات الموجودة لديك بالفعل. بالنسبة للصور، هذا يعني التدوير، والقلب، والاقتصاص، وإزاحة اللون، والتمويه، وإضافة الضوضاء - التغييرات التي تغير وحدات البكسل ولكن ليس الإجابة الصحيحة (القطة المقلوبة لا تزال قطة). بالنسبة للنص، تتضمن التقنيات استبدال المرادفات، والترجمة العكسية (الترجمة إلى لغة أخرى والعودة)، وحذف الكلمات العشوائية أو تبديلها. بالنسبة للصوت، يمكنك إضافة ضوضاء في الخلفية، أو تغيير درجة الصوت، أو مقاطع ممتدة زمنيًا. الهدف هو تعليم النموذج الثوابت المهمة، أي أن هوية الشيء لا تعتمد على موضعه أو إضاءته أو صياغته. وهذا يجعل النماذج أكثر قوة وتكون ذات قيمة خاصة عندما تكون البيانات المصنفة نادرة، حيث أن كل مثال حقيقي يصبح فعليًا متعددًا. غالبًا ما تقوم خطوط الأنابيب الحديثة بتوزيع الزيادات بشكل عشوائي أثناء كل فترة تدريب.

البصيرة الفنية

تنجح عملية التعزيز لأنها تضخ المعرفة المسبقة حول الثوابت مباشرة في التدريب: من خلال إظهار النموذج العديد من الإصدارات المحولة لمثال واحد، فإنك تشجعه على تعلم الميزات التي تتجاهل التباين غير ذي الصلة. والأهم من ذلك، أن التحولات يجب أن تحافظ على التسمية - فقلب الرقم "6" إلى الرقم "9" من شأنه أن يعلم الشيء الخطأ. تتجاوز الأساليب المتقدمة عمليات التحرير البسيطة: يقوم Mixup بمزج صورتين وملصقاتهما، ومناطق أقنعة القطع، والسياسات المستفادة مثل AutoAugment للبحث عن أفضل مجموعات التحويل لمجموعة بيانات معينة.

إتقان زيادة البيانات

تعمل زيادة البيانات على توسيع مجموعة التدريب بشكل مصطنع عن طريق إنشاء نسخ معدلة من الأمثلة الموجودة - مثل تقليب الصور أو اقتصاصها. وهذا مهم لأن البيانات الأكثر تنوعًا تقلل من التجاوز وتساعد النماذج على التعميم على المدخلات التي لم ترها. يوجد تعزيز البيانات في مجموعة أدوات الذكاء الاصطناعي الأساسية. عندما تفهمها، يصبح تقييم موضوعات الذكاء الاصطناعي الأخرى ومقارنتها أسهل. لبناء فهم عميق، يجب التعامل مع تعزيز البيانات كنموذج تشغيلي، وليس كميزة واحدة: تحديد النتائج المرجوة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تقوم الفرق القوية التي تستخدم تقنية تعزيز البيانات ببناء نماذج مفاهيمية قوية أولاً، ثم تقوم بتعيين تلك النماذج لقيود الإنتاج الحقيقية. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق. وفي الوقت نفسه، قد تستخدم الفرق المختلفة نفس المصطلح بشكل مختلف، لذا حدد النطاق مبكرًا. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق.

يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكنك طرح أسئلة تنفيذ أفضل قبل إنفاق المال أو الوقت.

يمكنك طرح أسئلة تنفيذ أفضل قبل إنفاق المال أو الوقت. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

تتخذ الفرق ذات الفهم المشترك قرارات أفضل بشأن المنتجات والسياسات والتعلم.

تتخذ الفرق ذات الفهم المشترك قرارات أفضل بشأن المنتجات والسياسات والتعلم. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل زيادة البيانات

الحدود هي التعزيز التوليدي والمكتسب: استخدام نماذج الانتشار أو شبكات GAN لتجميع أمثلة تدريب واقعية جديدة تمامًا بدلاً من مجرد تحويل الأمثلة القديمة. يعمل البحث المعزز الآلي (AutoAugment، RandAugment) على تقليل الضبط اليدوي، وأصبحت التعزيز الآن عنصرًا أساسيًا في التعلم الخاضع للإشراف الذاتي، حيث تتعلم النماذج من خلال التعرف على ضرورة تطابق عرضين معززين لنفس المدخلات. توقع أن تؤدي الزيادة إلى استمرار طمس الخط الفاصل بين توليد البيانات الاصطناعية، خاصة بالنسبة للفئات النادرة والمجالات الحساسة للخصوصية حيث يكون جمع البيانات الحقيقية أمرًا صعبًا.

التنفيذ في العالم الحقيقي

يتدرب مصنف الصور على صور تم تدويرها عشوائيًا، وتم اقتصاصها، وتشوش الألوان بحيث يتعرف على الكائنات بغض النظر عن الزاوية أو الإضاءة.

يستخدم فريق البرمجة اللغوية العصبية الترجمة العكسية (من الإنجليزية إلى الألمانية وبالعكس) لإعادة صياغة الجمل وتوسيع مجموعة بيانات صغيرة لتحليل المشاعر.

يضيف نموذج الكلام ضوضاء المقهى في الخلفية ويغير درجة الصوت في التسجيلات بحيث يظل دقيقًا في ظروف العالم الحقيقي الصاخبة.

يطبق الذكاء الاصطناعي الطبي تشوهات وتقلبات مرنة على مجموعة محدودة من فحوصات التصوير بالرنين المغناطيسي لمضاعفة الأمثلة النادرة دون الحاجة إلى مرضى جدد.

أنماط التنفيذ

زيادة البيانات في الممارسة العملية

يتدرب مصنف الصور على صور تم تدويرها عشوائيًا، وتم اقتصاصها، وتشوش الألوان بحيث يتعرف على الكائنات بغض النظر عن الزاوية أو الإضاءة.

يتدرب مصنف الصور على صور تم تدويرها عشوائيًا، وتم اقتصاصها، وتشويه الألوان بحيث يتعرف على الكائنات بغض النظر عن الزاوية أو الإضاءة، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الخطأ مع مرور الوقت.

زيادة البيانات في الممارسة العملية

يستخدم فريق البرمجة اللغوية العصبية الترجمة العكسية (من الإنجليزية إلى الألمانية وبالعكس) لإعادة صياغة الجمل وتوسيع مجموعة بيانات صغيرة لتحليل المشاعر.

يستخدم فريق البرمجة اللغوية العصبية الترجمة الخلفية (من الإنجليزية إلى الألمانية وبالعكس) لإعادة صياغة الجمل وتوسيع مجموعة بيانات صغيرة لتحليل المشاعر. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

زيادة البيانات في الممارسة العملية

يضيف نموذج الكلام ضوضاء المقهى في الخلفية ويغير درجة الصوت في التسجيلات بحيث يظل دقيقًا في ظروف العالم الحقيقي الصاخبة.

يضيف نموذج الكلام ضوضاء المقهى في الخلفية ويغير درجة الصوت في التسجيلات بحيث يظل دقيقًا في ظروف العالم الحقيقي الصاخبة. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

زيادة البيانات في الممارسة العملية

يطبق الذكاء الاصطناعي الطبي تشوهات وتقلبات مرنة على مجموعة محدودة من فحوصات التصوير بالرنين المغناطيسي لمضاعفة الأمثلة النادرة دون الحاجة إلى مرضى جدد.

يطبق الذكاء الاصطناعي الطبي تشوهات وتقلبات مرنة على مجموعة محدودة من فحوصات التصوير بالرنين المغناطيسي لمضاعفة الأمثلة ذات العلامات النادرة دون الحاجة إلى مرضى جدد. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الخطأ مع مرور الوقت.

المخاطر والدرابزين

!

قد تستخدم الفرق المختلفة نفس المصطلح بشكل مختلف، لذا حدد النطاق مبكرًا.

!

يمكن أن تبدو المعايير قوية بينما يكون الأداء في العالم الحقيقي غير متساوٍ.

!

غالبًا ما يؤدي تجاهل جودة البيانات وخطط التقييم إلى نتائج هشة.

خارطة طريق التنفيذ

1

ابدأ بتعريف لغة واضحة للنتيجة التي تحتاجها.

ابدأ بتعريف لغة واضحة للنتيجة التي تحتاجها. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

اختر مقياس نجاح واحد وحالة فشل واحدة قبل الاختبار.

اختر مقياس نجاح واحد وحالة فشل واحدة قبل الاختبار. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

قم بتشغيل برنامج تجريبي صغير يحتوي على بيانات تمثيلية، وليس مجموعة تجريبية مصقولة.

قم بتشغيل برنامج تجريبي صغير يحتوي على بيانات تمثيلية، وليس مجموعة تجريبية مصقولة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

قم بالتوثيق حيثما تساعد زيادة البيانات وأين تكون الطرق الأبسط أفضل.

قم بالتوثيق حيثما تساعد زيادة البيانات وأين تكون الطرق الأبسط أفضل. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف