دليل المجتمع

تسمم البيانات والهجمات الخلفية

يؤدي تسميم البيانات إلى إفساد النموذج من خلال التلاعب ببيانات التدريب الخاصة به، وتخفي الهجمات الخلفية محفزًا سريًا يجعل النموذج يسيء التصرف بناءً على الأوامر.

نظرة عامة

يؤدي تسميم البيانات إلى إفساد النموذج من خلال التلاعب ببيانات التدريب الخاصة به، وتخفي الهجمات الخلفية محفزًا سريًا يجعل النموذج يسيء التصرف بناءً على الأوامر. إنها مهمة لأن النماذج تتعلم بشكل متزايد من البيانات المجمعة التي يمكن للمهاجمين تلويثها بهدوء.

ينتمي تسميم البيانات والهجمات الخلفية إلى الطبقة الاجتماعية والحوكمة للذكاء الاصطناعي، حيث تشكل السياسة والمساءلة والثقة العامة تأثيرًا طويل المدى.

الغوص العميق

تنقسم هجمات التسمم إلى هدفين عريضين. تهدف هجمات التوفر إلى تقليل الدقة الإجمالية عن طريق حقن أمثلة ذات عناوين خاطئة أو تالفة. تعد الهجمات المستهدفة والهجمات الخلفية أكثر تسللًا: يعمل النموذج بشكل مثالي على المدخلات العادية ولكنه ينتج مخرجات يختارها المهاجم كلما ظهر مشغل مخفي، مثل تصحيح بكسل صغير، أو عبارة محددة، أو علامة مائية غير مرئية. أظهر عمل BadNets مُصنِّفًا لعلامات التوقف يقرأ علامة تحمل علامة لاصقة باسم "الحد الأقصى للسرعة". يتم الكشف عن الأنظمة الحديثة لأنها تتدرب على البيانات على نطاق الويب. أثبت الباحثون أن شراء النطاقات منتهية الصلاحية خلف جزء صغير من عناوين URL لمجموعة البيانات يمكن أن يسمم مجموعات بيانات الصور الشائعة مقابل بضع مئات من الدولارات. يمكن أيضًا أن يتم اختراق النماذج اللغوية من خلال بيانات الضبط الدقيق المسمومة أو أمثلة التعليمات.

البصيرة الفنية

يعد الباب الخلفي للملصقات النظيفة خطيرًا بشكل خاص: فالعينات المسمومة تحتفظ بالملصقات الصحيحة وتبدو طبيعية للمراجعين البشريين، ومع ذلك فهي تتضمن ميزة تحفيز يتعلم النموذج ربطها بالفئة المستهدفة. عند الاستدلال، يؤدي تقديم المشغل إلى قلب التنبؤ بينما تظل الدقة النظيفة عالية، لذلك لا يتمكن التحقق من الصحة القياسي من اكتشافه أبدًا. تشمل الدفاعات تجميع التنشيط، والتوقيعات الطيفية، وإعادة بناء الزناد، والتحقق من مصدر البيانات.

إتقان عمليات تسميم البيانات والهجمات الخلفية

يؤدي تسميم البيانات إلى إفساد النموذج من خلال التلاعب ببيانات التدريب الخاصة به، وتخفي الهجمات الخلفية محفزًا سريًا يجعل النموذج يسيء التصرف بناءً على الأوامر. إنها مهمة لأن النماذج تتعلم بشكل متزايد من البيانات المجمعة التي يمكن للمهاجمين تلويثها بهدوء. ينتمي تسميم البيانات والهجمات الخلفية إلى الطبقة الاجتماعية والحوكمة للذكاء الاصطناعي، حيث تشكل السياسة والمساءلة والثقة العامة تأثيرًا طويل المدى. لبناء فهم عميق، يجب التعامل مع هجمات تسميم البيانات والهجمات الخلفية كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرجوة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تعمل الفرق القوية التي تستخدم عمليات تسميم البيانات والهجمات الخلفية على ربط نمو القدرات بالحوكمة والسلامة وهياكل المساءلة الواضحة. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

فالقرارات المجتمعية تحدد من المستفيد ومن يتحمل المخاطر. وفي الوقت نفسه، قد تنتشر الادعاءات الواسعة بشكل أسرع من الأدلة والرقابة المسؤولة. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

فالقرارات المجتمعية تحدد من المستفيد ومن يتحمل المخاطر.

فالقرارات المجتمعية تحدد من المستفيد ومن يتحمل المخاطر. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

تعتمد المؤسسات العامة والمدارس والشركات على حوكمة واضحة للذكاء الاصطناعي.

تعتمد المؤسسات العامة والمدارس والشركات على حوكمة واضحة للذكاء الاصطناعي. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

ومن الممكن أن يؤدي التصميم الجيد للسياسات إلى تحسين السلامة دون عرقلة الابتكار المفيد.

ومن الممكن أن يؤدي التصميم الجيد للسياسات إلى تحسين السلامة دون عرقلة الابتكار المفيد. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل تسمم البيانات والهجمات الخلفية

وبما أن سلاسل التوريد تعتمد على البيانات المستخرجة، والأوزان المدربة مسبقا، والضبط الدقيق من قبل طرف ثالث، فإن التسمم يتحول من النظرية إلى تهديد حقيقي لسلسلة التوريد. توقع معايير توقيع مجموعة البيانات ومصدرها، والتدريب المعتمد على المتانة الذي يحد من الضرر الناتج عن عدد ثابت من النقاط المسمومة، والمسح الخلفي المستمر للنماذج قبل النشر. بدأت الهيئات التنظيمية والأطر الأمنية مثل MITRE ATLAS في التعامل مع التسمم باعتباره خطرًا من الدرجة الأولى للتعلم الآلي.

التنفيذ في العالم الحقيقي

نموذج رؤية للسيارات ذاتية القيادة يخطئ في قراءة علامة التوقف كعلامة حد للسرعة عند وجود مشغل ملصق صغير

تسميم مجموعة بيانات الصور العامة بتكلفة زهيدة عن طريق الاستيلاء على النطاقات منتهية الصلاحية التي تستضيف جزءًا من عناوين URL للصور الخاصة بها

الباب الخلفي لنموذج إكمال التعليمات البرمجية بحيث تؤدي عبارة المطالبة المخفية إلى إدخال تعليمات برمجية غير آمنة

إتلاف التعليقات التدريبية المجمعة لمرشح البريد العشوائي بحيث تتسلل رسائل بريد إلكتروني ضارة محددة

أنماط التنفيذ

تسميم البيانات والهجمات الخلفية في الممارسة العملية

نموذج رؤية للسيارات ذاتية القيادة يخطئ في قراءة علامة التوقف كعلامة حد للسرعة عند وجود ملصق صغير.

نموذج رؤية للسيارات ذاتية القيادة يخطئ في قراءة علامة التوقف كعلامة حد للسرعة عند وجود مشغل ملصق صغير. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحافظ على مسار تصعيد بشري للحالات الطرفية، وتتتبع مكاسب الإنتاجية وتكاليف الخطأ مع مرور الوقت.

تسميم البيانات والهجمات الخلفية في الممارسة العملية

تسميم مجموعة بيانات الصور العامة بتكلفة زهيدة عن طريق الاستيلاء على النطاقات منتهية الصلاحية التي تستضيف جزءًا من عناوين URL للصور الخاصة بها.

تسميم مجموعة بيانات الصور العامة بتكلفة زهيدة عن طريق الاستيلاء على النطاقات منتهية الصلاحية التي تستضيف جزءًا من عناوين URL للصور الخاصة بها. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

تسميم البيانات والهجمات الخلفية في الممارسة العملية

الباب الخلفي لنموذج إكمال التعليمات البرمجية بحيث تؤدي عبارة المطالبة المخفية إلى إدخال تعليمات برمجية غير آمنة.

الباب الخلفي لنموذج إكمال التعليمات البرمجية بحيث تجعل عبارة المطالبة المخفية إدراج تعليمات برمجية غير آمنة عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

تسميم البيانات والهجمات الخلفية في الممارسة العملية

إتلاف التعليقات التدريبية المجمعة لمرشح البريد العشوائي بحيث تتسلل رسائل بريد إلكتروني ضارة محددة.

إتلاف التعليقات التدريبية المجمعة لعامل تصفية البريد العشوائي بحيث تتسلل رسائل بريد إلكتروني ضارة معينة عبر Teams عادةً ما تحصل على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

قد تنتشر الادعاءات العامة بشكل أسرع من الأدلة والرقابة المسؤولة.

!

يمكن للحوكمة الضعيفة أن تترك فجوات في المساءلة عند حدوث الأضرار.

!

ومن الممكن أن تتركز السلطة عندما يكون الوصول إليها والشفافية والتدقيق محدودا.

خارطة طريق التنفيذ

1

تحديد أصحاب المصلحة المتأثرين والأضرار الأكثر أهمية.

تحديد أصحاب المصلحة المتأثرين والأضرار الأكثر أهمية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

تحديد متطلبات الشفافية للبيانات والنماذج والقرارات.

تحديد متطلبات الشفافية للبيانات والنماذج والقرارات. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

أضف مراجعة مستقلة أو اختبار الفريق الأحمر للأنظمة عالية المخاطر.

أضف مراجعة مستقلة أو اختبار الفريق الأحمر للأنظمة عالية المخاطر. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

قم بتحديث السياسة والضوابط مع تطور القدرات وأنماط الاستخدام.

قم بتحديث السياسة والضوابط مع تطور القدرات وأنماط الاستخدام. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف