دليل الأساسيات

تخفيض الأبعاد

يؤدي تقليل الأبعاد إلى تقليص البيانات من العديد من الأعمدة (الميزات) إلى عدد قليل منها مع الحفاظ على البنية المهمة.

نظرة عامة

يؤدي تقليل الأبعاد إلى تقليص البيانات من العديد من الأعمدة (الميزات) إلى عدد قليل منها مع الحفاظ على البنية المهمة. فهو يحارب "لعنة الأبعاد"، ويسرع النماذج، ويتيح لك تصور البيانات المعقدة في صورة ثنائية أو ثلاثية الأبعاد.

يوجد تقليل الأبعاد في مجموعة أدوات الذكاء الاصطناعي الأساسية. عندما تفهمها، يصبح تقييم موضوعات الذكاء الاصطناعي الأخرى ومقارنتها أسهل.

الغوص العميق

غالبًا ما تحتوي مجموعات البيانات الحقيقية على مئات أو آلاف الميزات: كل بكسل في الصورة، وكل كلمة في المفردات، وكل مستشعر على الجهاز. في مثل هذه المساحات عالية الأبعاد، تصبح نقاط البيانات متناثرة ومتباعدة، وتصبح قياسات المسافة غير موثوقة، وتميل النماذج إلى تجاوز الضوضاء. هذه هي لعنة الأبعاد. يقوم تقليل الأبعاد بتخطيط البيانات إلى أبعاد أقل بكثير مع الحفاظ على العلاقات ذات المعنى. يقوم PCA بذلك خطيًا من خلال إيجاد اتجاهات التباين الأكبر. t-SNE وUMAP غير خطيين ويتفوقان في الكشف عن المجموعات للتصور. يؤدي تقليل الأبعاد إلى إزالة الميزات الزائدة أو المزعجة، ويخفض الذاكرة والحساب، ويحسن في كثير من الأحيان دقة النموذج النهائي نظرًا لوجود إشارة أقل أهمية لإرباكه.

البصيرة الفنية

يعمل PCA عن طريق حساب التباين المشترك للميزات وإيجاد المتجهات الذاتية، "المكونات الرئيسية"، التي تشير إلى اتجاهات الحد الأقصى من التباين. يمكنك الاحتفاظ بالمكونات القليلة الأولى وبيانات المشروع عليها، مع تجاهل الاتجاهات ذات التباين المنخفض والتي تكون في الغالب ضوضاء. بدلاً من ذلك، يقوم كل من t-SNE وUMAP بنموذج علاقات الجوار: فهم يحاولون الاحتفاظ بالنقاط التي كانت قريبة في الأبعاد العالية قريبة من الخريطة منخفضة الأبعاد. يقوم UMAP ببناء رسم بياني للنقاط القريبة، مما يجعله أسرع من t-SNE وأفضل في الحفاظ على البنية العالمية الأوسع.

إتقان الحد من الأبعاد

يؤدي تقليل الأبعاد إلى تقليص البيانات من العديد من الأعمدة (الميزات) إلى عدد قليل منها مع الحفاظ على البنية المهمة. فهو يحارب "لعنة الأبعاد"، ويسرع النماذج، ويتيح لك تصور البيانات المعقدة في صورة ثنائية أو ثلاثية الأبعاد. يوجد تقليل الأبعاد في مجموعة أدوات الذكاء الاصطناعي الأساسية. عندما تفهمها، يصبح تقييم موضوعات الذكاء الاصطناعي الأخرى ومقارنتها أسهل. لبناء فهم عميق، تعامل مع تقليل الأبعاد كنموذج تشغيلي، وليس كميزة واحدة: حدد النتائج المرغوبة، ووضح الافتراضات، وافصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تقوم الفرق القوية التي تستخدم تقليل الأبعاد ببناء نماذج مفاهيمية قوية أولاً، ثم تقوم بتعيين تلك النماذج لقيود الإنتاج الحقيقية. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق. وفي الوقت نفسه، قد تستخدم الفرق المختلفة نفس المصطلح بشكل مختلف، لذا حدد النطاق مبكرًا. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق.

يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكنك طرح أسئلة تنفيذ أفضل قبل إنفاق المال أو الوقت.

يمكنك طرح أسئلة تنفيذ أفضل قبل إنفاق المال أو الوقت. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

تتخذ الفرق ذات الفهم المشترك قرارات أفضل بشأن المنتجات والسياسات والتعلم.

تتخذ الفرق ذات الفهم المشترك قرارات أفضل بشأن المنتجات والسياسات والتعلم. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل تخفيض الأبعاد

أصبح تقليل الأبعاد الآن خطوة روتينية داخل مسارات الذكاء الاصطناعي الأكبر حجمًا بدلاً من مهمة مستقلة. لقد أصبح UMAP إلى حد كبير هو الخيار الافتراضي لاستكشاف عمليات التضمين من نماذج اللغة والرؤية الكبيرة، حيث يقوم المهندسون بإسقاط آلاف الأبعاد في خريطة ثنائية الأبعاد لفحص ما تعلمه النموذج. توقع تكاملًا أكثر إحكامًا مع لوحات المعلومات التفاعلية، وعمليات تنفيذ أسرع بواسطة وحدة معالجة الرسومات لمجموعات البيانات المكونة من مليار صف، والاستخدام المتزايد في أعمال قابلية التفسير، حيث يقلل الباحثون من عمليات التنشيط الداخلية للنموذج لفهم سلوكه وتصحيح أخطائه.

التنفيذ في العالم الحقيقي

رسم تضمينات الكلمات أو الجمل من نموذج لغة ثنائي الأبعاد باستخدام UMAP لمعرفة المفاهيم التي يجمعها النموذج معًا

ضغط الآلاف من قياسات التعبير الجيني لكل مريض في عدد قليل من المكونات قبل تجميع الأنواع الفرعية للمرض

تقليل ميزات الصورة قبل تقديمها إلى أحد المصنفين، بحيث يكون التدريب أسرع وأقل عرضة للتركيب الزائد

تصور سلوك العملاء عبر مئات المقاييس كمخطط متناثر ثنائي الأبعاد لتحديد قطاعات السوق المتميزة

أنماط التنفيذ

تخفيض الأبعاد في الممارسة العملية

رسم تضمينات الكلمات أو الجمل من نموذج لغة ثنائي الأبعاد باستخدام UMAP لمعرفة المفاهيم التي يجمعها النموذج معًا.

رسم تضمينات الكلمات أو الجمل من نموذج لغة ثنائي الأبعاد باستخدام UMAP لمعرفة المفاهيم التي يجمعها النموذج معًا. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الخطأ مع مرور الوقت.

تخفيض الأبعاد في الممارسة العملية

ضغط الآلاف من قياسات التعبير الجيني لكل مريض في عدد قليل من المكونات قبل تجميع الأنواع الفرعية للمرض.

ضغط الآلاف من قياسات التعبير الجيني لكل مريض في عدد قليل من المكونات قبل تجميع الأنواع الفرعية للمرض، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحافظ على مسار تصعيد بشري للحالات الطرفية، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

تخفيض الأبعاد في الممارسة العملية

تقليل ميزات الصورة قبل تقديمها إلى أحد المصنفين، بحيث يكون التدريب أسرع وأقل عرضة للتركيب الزائد.

تقليل ميزات الصورة قبل تقديمها إلى أحد المصنفات، بحيث يكون التدريب أسرع وأقل عرضة للتركيب الزائد. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

تخفيض الأبعاد في الممارسة العملية

تصور سلوك العملاء عبر مئات المقاييس كمخطط متناثر ثنائي الأبعاد لتحديد قطاعات السوق المتميزة.

تصور سلوك العملاء عبر مئات المقاييس كمخطط متناثر ثنائي الأبعاد لتحديد قطاعات السوق المتميزة، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

قد تستخدم الفرق المختلفة نفس المصطلح بشكل مختلف، لذا حدد النطاق مبكرًا.

!

يمكن أن تبدو المعايير قوية بينما يكون الأداء في العالم الحقيقي غير متساوٍ.

!

غالبًا ما يؤدي تجاهل جودة البيانات وخطط التقييم إلى نتائج هشة.

خارطة طريق التنفيذ

1

ابدأ بتعريف لغة واضحة للنتيجة التي تحتاجها.

ابدأ بتعريف لغة واضحة للنتيجة التي تحتاجها. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

اختر مقياس نجاح واحد وحالة فشل واحدة قبل الاختبار.

اختر مقياس نجاح واحد وحالة فشل واحدة قبل الاختبار. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

قم بتشغيل برنامج تجريبي صغير يحتوي على بيانات تمثيلية، وليس مجموعة تجريبية مصقولة.

قم بتشغيل برنامج تجريبي صغير يحتوي على بيانات تمثيلية، وليس مجموعة تجريبية مصقولة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

قم بالتوثيق حيث يساعد تقليل الأبعاد وأين تكون الطرق الأبسط أفضل.

قم بالتوثيق حيث يساعد تقليل الأبعاد وأين تكون الطرق الأبسط أفضل. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف