دليل الأساسيات

أشجار القرار والغابات العشوائية

تقوم شجرة القرار بعمل تنبؤات من خلال طرح سلسلة من الأسئلة البسيطة بنعم/لا، مثل المخطط الانسيابي.

نظرة عامة

تقوم شجرة القرار بعمل تنبؤات من خلال طرح سلسلة من الأسئلة البسيطة بنعم/لا، مثل المخطط الانسيابي. تجمع الغابة العشوائية بين المئات من هذه الأشجار وتسمح لها بالتصويت، وهو أمر أكثر دقة وقوة بكثير.

توجد أشجار القرار والغابات العشوائية في مجموعة أدوات الذكاء الاصطناعي الأساسية. عندما تفهمها، يصبح تقييم موضوعات الذكاء الاصطناعي الأخرى ومقارنتها أسهل.

الغوص العميق

تقوم شجرة القرار بتقسيم البيانات خطوة بخطوة: في كل عقدة تختار الميزة والعتبة التي تفصل النتائج بشكل أفضل، ثم تتفرع حتى تصل إلى التنبؤ عند الورقة. تحظى الأشجار بشعبية كبيرة لأنها سهلة القراءة؛ يمكنك تتبع سبب اتخاذ القرار بالضبط. ضعفهم هو الإفراط في التجهيز، حيث تحفظ الشجرة العميقة الضوضاء وتتنبأ بشكل سيء بالبيانات الجديدة. تعمل الغابات العشوائية على إصلاح ذلك عن طريق تدريب العديد من الأشجار على مجموعات فرعية عشوائية من البيانات (تقنية تسمى التعبئة) ومجموعات فرعية عشوائية من الميزات عند كل قسم. ترتكب الأشجار أخطاء مختلفة، لذا فإن حساب متوسط ​​أصواتها يلغي الأخطاء الفردية. والنتيجة هي واحدة من الخوارزميات الأكثر موثوقية ومنخفضة الضبط للبيانات الجدولية، والتي يتم استخدامها على نطاق واسع قبل الوصول إلى التعلم العميق.

البصيرة الفنية

يتم اختيار كل تقسيم لتحقيق أقصى قدر من "النقاء". تقلل أشجار التصنيف من شوائب جيني أو الإنتروبيا؛ تعمل أشجار الانحدار على تقليل التباين (الخطأ التربيعي). تضيف الغابات العشوائية مصدرين للعشوائية: أخذ عينات التمهيد (كل شجرة ترى عينة عشوائية مرسومة مع الاستبدال) واختيار الميزة العشوائية عند كل تقسيم. وهذا يؤدي إلى عدم ارتباط الأشجار بحيث يكون متوسط ​​تنبؤاتها أقل تباينًا بكثير من أي شجرة منفردة، دون زيادة التحيز كثيرًا. تعطي العينات غير الجاهزة، التي تم استبعادها من تمهيد كل شجرة، تقديرًا مدمجًا للتحقق من الصحة.

إتقان أشجار القرار والغابات العشوائية

تقوم شجرة القرار بعمل تنبؤات من خلال طرح سلسلة من الأسئلة البسيطة بنعم/لا، مثل المخطط الانسيابي. تجمع الغابة العشوائية بين المئات من هذه الأشجار وتسمح لها بالتصويت، وهو أمر أكثر دقة وقوة بكثير. توجد أشجار القرار والغابات العشوائية في مجموعة أدوات الذكاء الاصطناعي الأساسية. عندما تفهمها، يصبح تقييم موضوعات الذكاء الاصطناعي الأخرى ومقارنتها أسهل. لبناء فهم عميق، يجب التعامل مع أشجار القرار والغابات العشوائية كنموذج تشغيلي، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تقوم الفرق القوية التي تستخدم أشجار القرار والغابات العشوائية ببناء نماذج مفاهيمية قوية أولاً، ثم ترسم تلك النماذج لقيود الإنتاج الحقيقية. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق. وفي الوقت نفسه، قد تستخدم الفرق المختلفة نفس المصطلح بشكل مختلف، لذا حدد النطاق مبكرًا. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق.

يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكنك طرح أسئلة تنفيذ أفضل قبل إنفاق المال أو الوقت.

يمكنك طرح أسئلة تنفيذ أفضل قبل إنفاق المال أو الوقت. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

تتخذ الفرق ذات الفهم المشترك قرارات أفضل بشأن المنتجات والسياسات والتعلم.

تتخذ الفرق ذات الفهم المشترك قرارات أفضل بشأن المنتجات والسياسات والتعلم. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل أشجار القرار والغابات العشوائية

تظل الغابات العشوائية البسيطة بمثابة خط الأساس، لكن الأضواء تحولت إلى الأشجار المعززة بالتدرج مثل XGBoost، وLightGBM، وCatBoost، التي تبني الأشجار بشكل تسلسلي لتصحيح الأخطاء السابقة وغالبًا ما تتصدر منافسات البيانات الجدولية. تستمر مجموعات الأشجار هذه في التفوق على الشبكات العصبية في العديد من مجموعات البيانات المنظمة. توقع استمرار العمل على السرعة، وتدريب وحدة معالجة الرسومات، وخاصة أدوات التفسير مثل SHAP، نظرًا لأن قابلية التفسير هي السبب الرئيسي وراء استمرار الصناعات الخاضعة للتنظيم في اختيار النماذج القائمة على الشجرة بدلاً من التعلم العميق للصندوق الأسود.

التنفيذ في العالم الحقيقي

التصنيف الائتماني والموافقة على القروض، حيث تقدر البنوك مسار القرار الواضح والقابل للتدقيق.

التنبؤ بالمخاطر الطبية الذي يشير إلى عوامل المريض التي أدت إلى التشخيص أو التنبيه.

توقع تراجع العملاء من الحساب الجدولي وبيانات الاستخدام.

تحليل أهمية الميزة لتصنيف المتغيرات الأكثر أهمية في مجموعة البيانات.

أنماط التنفيذ

أشجار القرار والغابات العشوائية في الممارسة العملية

التصنيف الائتماني والموافقة على القروض، حيث تقدر البنوك مسار القرار الواضح والقابل للتدقيق.

تسجيل الائتمان والموافقة على القروض، حيث تقدر البنوك مسار القرار الواضح والقابل للتدقيق. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

أشجار القرار والغابات العشوائية في الممارسة العملية

التنبؤ بالمخاطر الطبية الذي يشير إلى عوامل المريض التي أدت إلى التشخيص أو التنبيه.

التنبؤ بالمخاطر الطبية التي تشير إلى عوامل المريض التي أدت إلى التشخيص أو التنبيه عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

أشجار القرار والغابات العشوائية في الممارسة العملية

توقع تراجع العملاء من الحساب الجدولي وبيانات الاستخدام.

التنبؤ بتراجع العملاء من الحساب الجدولي وبيانات الاستخدام عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

أشجار القرار والغابات العشوائية في الممارسة العملية

تحليل أهمية الميزة لتصنيف المتغيرات الأكثر أهمية في مجموعة البيانات.

تحليل أهمية الميزة لتصنيف المتغيرات الأكثر أهمية في مجموعة البيانات عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

قد تستخدم الفرق المختلفة نفس المصطلح بشكل مختلف، لذا حدد النطاق مبكرًا.

!

يمكن أن تبدو المعايير قوية بينما يكون الأداء في العالم الحقيقي غير متساوٍ.

!

غالبًا ما يؤدي تجاهل جودة البيانات وخطط التقييم إلى نتائج هشة.

خارطة طريق التنفيذ

1

ابدأ بتعريف لغة واضحة للنتيجة التي تحتاجها.

ابدأ بتعريف لغة واضحة للنتيجة التي تحتاجها. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

اختر مقياس نجاح واحد وحالة فشل واحدة قبل الاختبار.

اختر مقياس نجاح واحد وحالة فشل واحدة قبل الاختبار. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

قم بتشغيل برنامج تجريبي صغير يحتوي على بيانات تمثيلية، وليس مجموعة تجريبية مصقولة.

قم بتشغيل برنامج تجريبي صغير يحتوي على بيانات تمثيلية، وليس مجموعة تجريبية مصقولة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

قم بالتوثيق حيثما تساعد أشجار القرار والغابات العشوائية وأين تكون الطرق الأبسط أفضل.

قم بالتوثيق حيثما تساعد أشجار القرار والغابات العشوائية وأين تكون الطرق الأبسط أفضل. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف