نظرة عامة
يقوم التعلم المعزز متعدد الوكلاء (MARL) بتدريب العديد من وكلاء التعلم الذين يتشاركون في بيئة واحدة، حيث يقوم كل منهم بتكييف سلوكه بينما يتكيف الآخرون أيضًا. وهو أمر مهم لأن معظم مشاكل العالم الحقيقي - حركة المرور، والأسواق، وفرق الروبوتات - تنطوي على العديد من صناع القرار، وليس واحدا.
يقع التعلم المعزز متعدد الوكلاء في مجموعة أدوات الذكاء الاصطناعي الأساسية. عندما تفهمها، يصبح تقييم موضوعات الذكاء الاصطناعي الأخرى ومقارنتها أسهل.
الغوص العميق
في التعلم المعزز لوكيل واحد، يتعلم وكيل واحد سياسة من خلال تعظيم المكافأة في بيئة ثابتة. تضيف MARL المزيد من الوكلاء، وهذا يغير كل شيء: من وجهة نظر كل وكيل، تكون البيئة غير ثابتة لأن الآخرين يستمرون في تغيير سياساتهم. يمكن أن يكون الوكلاء متعاونين (يتقاسمون مكافأة الفريق، مثل الروبوتات التي تلعب كرة القدم)، أو تنافسيين (محصلتهم صفر، مثل البوكر أو التهرب من المطاردة)، أو مختلطين. يستخدم الباحثون شكليات مثل ألعاب ماركوف (الألعاب العشوائية) التي تعمم عملية اتخاذ قرار ماركوف ذات الوكيل الواحد. تشمل النتائج الشهيرة وصول AlphaStar من DeepMind إلى Grandmaster في StarCraft II وOpenAI خمسة فرق محترفة مهزومة في Dota 2، وكلاهما يعتمد على مجموعات من العملاء المدربين ضد بعضهم البعض من خلال اللعب الذاتي.
البصيرة الفنية
ويتمثل التحدي الأساسي في عدم الجمود: فبينما يقوم كل وكيل بتحديث سياسته، يواجه الآخرون هدفاً متحركاً، وبالتالي فإن التعلم المستقل الساذج قد يفشل في التقارب. الحل الشائع هو التدريب المركزي مع التنفيذ اللامركزي (CTDE)، الذي تستخدمه خوارزميات مثل MADDPG وQMIX. أثناء التدريب، يرى الناقد جميع ملاحظات الوكلاء وإجراءاتهم لحساب التدرجات المستقرة، ولكن عند النشر، يتصرف كل وكيل باستخدام ملاحظاته المحلية فقط - ويجمع بين التعلم المنسق والتشغيل العملي المستقل.
إتقان التعلم المعزز متعدد الوكلاء
يقوم التعلم المعزز متعدد الوكلاء (MARL) بتدريب العديد من وكلاء التعلم الذين يتشاركون في بيئة واحدة، حيث يقوم كل منهم بتكييف سلوكه بينما يتكيف الآخرون أيضًا. وهو أمر مهم لأن معظم مشاكل العالم الحقيقي - حركة المرور، والأسواق، وفرق الروبوتات - تنطوي على العديد من صناع القرار، وليس واحدا. يقع التعلم المعزز متعدد الوكلاء في مجموعة أدوات الذكاء الاصطناعي الأساسية. عندما تفهمها، يصبح تقييم موضوعات الذكاء الاصطناعي الأخرى ومقارنتها أسهل. لبناء فهم عميق، يجب التعامل مع التعلم المعزز متعدد العوامل كنموذج تشغيلي، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.
من الناحية العملية، تقوم الفرق القوية التي تستخدم التعلم المعزز متعدد العوامل ببناء نماذج مفاهيمية قوية أولاً، ثم تعيين تلك النماذج لقيود الإنتاج الحقيقية. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.
يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق. وفي الوقت نفسه، قد تستخدم الفرق المختلفة نفس المصطلح بشكل مختلف، لذا حدد النطاق مبكرًا. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.
التأثير الاستراتيجي
يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق.
يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
يمكنك طرح أسئلة تنفيذ أفضل قبل إنفاق المال أو الوقت.
يمكنك طرح أسئلة تنفيذ أفضل قبل إنفاق المال أو الوقت. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
تتخذ الفرق ذات الفهم المشترك قرارات أفضل بشأن المنتجات والسياسات والتعلم.
تتخذ الفرق ذات الفهم المشترك قرارات أفضل بشأن المنتجات والسياسات والتعلم. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
التنفيذ في العالم الحقيقي
تنسيق أساطيل روبوتات المستودعات حتى يتمكنوا من توجيه الطرود دون الاصطدام أو الوصول إلى طريق مسدود في الممرات
التحكم في إشارات المرور حيث يكون كل تقاطع بمثابة وكيل يتعلم كيفية تقليل الازدحام على مستوى المدينة
لعبة تدريب الذكاء الاصطناعي مثل OpenAI Five (Dota 2) وAlphaStar (StarCraft II) عبر اللعب الذاتي بين العديد من العملاء
إدارة العطاءات واستجابة الطلب بين البطاريات الموزعة والمنازل في شبكة الكهرباء الذكية
أنماط التنفيذ
التعلم المعزز متعدد الوكلاء في الممارسة العملية
تنسيق أساطيل روبوتات المستودعات حتى يتمكنوا من توجيه الطرود دون الاصطدام أو الوصول إلى طريق مسدود في الممرات.
تنسيق أساطيل روبوتات المستودعات بحيث تقوم بتوجيه الحزم دون الاصطدام أو الجمود في الممرات، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
التعلم المعزز متعدد الوكلاء في الممارسة العملية
التحكم في إشارات المرور حيث يكون كل تقاطع بمثابة وكيل يتعلم كيفية تقليل الازدحام على مستوى المدينة.
التحكم في إشارات المرور حيث يكون كل تقاطع بمثابة وكيل يتعلم كيفية تقليل الازدحام على مستوى المدينة عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري للحالات الطرفية، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
التعلم المعزز متعدد الوكلاء في الممارسة العملية
لعبة تدريب الذكاء الاصطناعي مثل OpenAI Five (Dota 2) وAlphaStar (StarCraft II) عبر اللعب الذاتي بين العديد من العملاء.
لعبة تدريب الذكاء الاصطناعي مثل OpenAI Five (Dota 2) وAlphaStar (StarCraft II) عبر اللعب الذاتي بين العديد من الوكلاء تحصل الفرق عادةً على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
التعلم المعزز متعدد الوكلاء في الممارسة العملية
إدارة العطاءات واستجابة الطلب بين البطاريات الموزعة والمنازل في شبكة الكهرباء الذكية.
إدارة العطاءات واستجابة الطلب بين البطاريات الموزعة والمنازل في شبكة الكهرباء الذكية عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
المخاطر والدرابزين
قد تستخدم الفرق المختلفة نفس المصطلح بشكل مختلف، لذا حدد النطاق مبكرًا.
يمكن أن تبدو المعايير قوية بينما يكون الأداء في العالم الحقيقي غير متساوٍ.
غالبًا ما يؤدي تجاهل جودة البيانات وخطط التقييم إلى نتائج هشة.
خارطة طريق التنفيذ
ابدأ بتعريف لغة واضحة للنتيجة التي تحتاجها.
ابدأ بتعريف لغة واضحة للنتيجة التي تحتاجها. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
اختر مقياس نجاح واحد وحالة فشل واحدة قبل الاختبار.
اختر مقياس نجاح واحد وحالة فشل واحدة قبل الاختبار. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
قم بتشغيل برنامج تجريبي صغير يحتوي على بيانات تمثيلية، وليس مجموعة تجريبية مصقولة.
قم بتشغيل برنامج تجريبي صغير يحتوي على بيانات تمثيلية، وليس مجموعة تجريبية مصقولة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
قم بالتوثيق حيث يساعد التعلم المعزز متعدد الوكلاء وأين تكون الطرق الأبسط أفضل.
قم بالتوثيق حيث يساعد التعلم المعزز متعدد الوكلاء وأين تكون الطرق الأبسط أفضل. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.