الدليل الفني

التعلم بالتقليد

يقوم التعلم بالتقليد بتعليم الذكاء الاصطناعي أداء مهمة ما عن طريق نسخ العروض التوضيحية التي يقدمها الخبراء بدلاً من التعلم من مكافآت التجربة والخطأ.

نظرة عامة

يقوم التعلم بالتقليد بتعليم الذكاء الاصطناعي أداء مهمة ما عن طريق نسخ العروض التوضيحية التي يقدمها الخبراء بدلاً من التعلم من مكافآت التجربة والخطأ. إنه أمر مهم لأنه بالنسبة للعديد من المهام الحقيقية - مثل القيادة، والجراحة، والتلاعب - يكون إظهار السلوك الجيد أسهل بكثير من كتابة دالة المكافأة.

يعد التعلم بالتقليد بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع.

الغوص العميق

يقوم التعلم بالتقليد بتدريب السياسة من خلال الأمثلة المسجلة لخبير يتصرف في بيئة ما، وعادةً ما يكون ذلك عبارة عن أزواج من الملاحظات والإجراءات التي اتخذها الخبير. إن أبسط أشكاله، وهو الاستنساخ السلوكي، يتعامل مع هذا باعتباره تعلمًا بسيطًا تحت الإشراف: توقع تصرفات الخبير في ضوء الحالة. ويكون الأمر جذابًا عندما يكون من الصعب تحديد المكافآت ولكن العروض التوضيحية وفيرة، كما هو الحال في السيارات ذاتية القيادة المدربة على سجلات التوجيه البشرية أو الروبوتات التي يتم تدريسها عن طريق التشغيل عن بعد. نقطة الضعف الكلاسيكية هي تحول التوزيع، أو الخطأ المضاعف: أخطاء التنبؤ الصغيرة تدفع العميل إلى حالات لم يزرها الخبير مطلقًا، حيث لا يوجد لديه أي توجيه وينجرف بعيدًا عن المسار. تعمل طرق مثل DAgger على إصلاح ذلك من خلال الاستعلام المتكرر عن الخبير حول الحالات التي يصل إليها المتعلم بالفعل.

البصيرة الفنية

يقلل الاستنساخ السلوكي من الخسارة الخاضعة للإشراف بين الإجراءات المتوقعة والمثبتة، لكنه يفترض أن الحالات مستقلة وموزعة بشكل متطابق، وهذا خطأ في التحكم التسلسلي. يكسر DAgger (تجميع مجموعة البيانات) هذا الافتراض من خلال طرح السياسة الحالية بشكل متكرر، ومطالبة الخبير بتسمية الحالات التي تمت زيارتها، وإعادة التدريب على مجموعة البيانات المجمعة المتنامية. يؤدي هذا إلى إبقاء بيانات التدريب متوافقة مع توزيع الحالة الخاصة بالمتعلم، مما يقلل بشكل كبير من الأخطاء المركبة على مدى الآفاق الطويلة.

إتقان التعلم بالتقليد

يقوم التعلم بالتقليد بتعليم الذكاء الاصطناعي أداء مهمة ما عن طريق نسخ العروض التوضيحية التي يقدمها الخبراء بدلاً من التعلم من مكافآت التجربة والخطأ. إنه أمر مهم لأنه بالنسبة للعديد من المهام الحقيقية - مثل القيادة، والجراحة، والتلاعب - يكون إظهار السلوك الجيد أسهل بكثير من كتابة دالة المكافأة. يعد التعلم بالتقليد بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع. لبناء فهم عميق، يجب التعامل مع التعلم بالتقليد كنموذج تشغيلي، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تعمل الفرق القوية التي تستخدم التعلم المقلد على تحسين خيارات البنية والبيانات والبنية التحتية مقابل الموثوقية والتكلفة. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي الوقت نفسه، يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات.

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث.

يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج.

تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل التعلم بالتقليد

يعد التعلم بالتقليد عنصرا أساسيا في ظهور نماذج تأسيس الروبوتات، حيث يتم تدريب سياسة واحدة على مجموعات بيانات ضخمة متعددة المهام للتشغيل عن بعد وضبطها بدقة للحصول على مهارات جديدة. توقع اندماجًا أكثر إحكامًا مع اللغة والرؤية حتى تتمكن الروبوتات من التقليد من مقاطع الفيديو أو التعليمات، بالإضافة إلى الروبوتات الهجينة التي تبدأ بالاستنساخ ثم تتحسن من خلال التعلم المعزز. لا يزال توسيع نطاق جمع العروض التوضيحية بتكلفة زهيدة، من خلال المحاكاة وبيانات اللعب البشرية المستمدة من التعهيد الجماعي، هو عنق الزجاجة الرئيسي والحدود النشطة.

التنفيذ في العالم الحقيقي

نماذج إدراك وتوجيه السيارة ذاتية القيادة المدربة على القيادة البشرية المسجلة

تتعلم أذرع الروبوت كيفية طي الغسيل أو تكديس الأشياء من العروض التوضيحية التي يتم تشغيلها عن بعد

يتم تشغيل وكلاء تشغيل الألعاب من عمليات إعادة التشغيل البشرية المسجلة قبل ضبطها باستخدام RL

الروبوتات الجراحية والمساعدة تتعلم الحركات من عروض المشغلين الخبراء

أنماط التنفيذ

التعلم بالتقليد في الممارسة العملية

نماذج إدراك وتوجيه السيارة ذاتية القيادة المدربة على القيادة البشرية المسجلة.

نماذج الإدراك إلى التوجيه في السيارة ذاتية القيادة المدربة على القيادة البشرية المسجلة، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري للحالات الطرفية، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

التعلم بالتقليد في الممارسة العملية

تتعلم أذرع الروبوت كيفية طي الغسيل أو تكديس الأشياء من العروض التوضيحية التي يتم تشغيلها عن بعد.

تتعلم أذرع الروبوت كيفية طي الغسيل أو تكديس الأشياء من العروض التوضيحية التي يتم تشغيلها عن بعد. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

التعلم بالتقليد في الممارسة العملية

يتم تشغيل وكلاء تشغيل الألعاب من عمليات إعادة التشغيل البشرية المسجلة قبل ضبطها باستخدام RL.

عادةً ما يحصل وكلاء ممارسة الألعاب الذين يتم تشغيلهم من عمليات إعادة التشغيل البشرية المسجلة قبل الضبط الدقيق باستخدام فرق RL على نتائج أفضل عندما يحددون حدود الجودة مقدمًا، ويحتفظون بمسار تصعيد بشري لحالات الحافة، ويتتبعون مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

التعلم بالتقليد في الممارسة العملية

الروبوتات الجراحية والمساعدة تتعلم الحركات من عروض المشغلين الخبراء.

تتعلم الروبوتات الجراحية والمساعدة من العروض التوضيحية للمشغلين الخبراء عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع.

!

غالبًا ما يتم التقليل من تكاليف البنية التحتية والصيانة.

!

يمكن أن تنمو الفجوات الأمنية وقابلية المراقبة عندما تصبح الأنظمة أكثر تعقيدًا.

خارطة طريق التنفيذ

1

تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ.

تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

المعيار في ظل ظروف التحميل والبيانات الواقعية.

المعيار في ظل ظروف التحميل والبيانات الواقعية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم.

مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس.

قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف