نظرة عامة
Voyager هو وكيل مدعوم من LLM في عام 2023 يلعب لعبة Minecraft بشكل مستقل، ويتعلم باستمرار عن طريق كتابة مهارات التعليمات البرمجية القابلة لإعادة الاستخدام وتخزينها في مكتبة متنامية. لقد أظهر أن الوكيل يمكنه القيام بالتعلم المفتوح مدى الحياة دون أي تحديثات متدرجة، وذلك ببساطة عن طريق تجميع البرامج وإعادة استخدامها.
يعد Voyager وSkill-Library Agents بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع.
الغوص العميق
تم تصميم Voyager بواسطة NVIDIA وCaltech والمتعاونين (Wang et al.)، ويستخدم GPT-4 كعقله ويتعامل مع المهارات على أنها كود JavaScript قابل للتنفيذ يتحكم في روبوت Minecraft. وهي تدير ثلاثة مكونات متفاعلة: منهج تلقائي يقترح أهدافًا صعبة بشكل متزايد لتحقيق أقصى قدر من الاستكشاف، وآلية تحفيز متكررة تكتب التعليمات البرمجية، وتشغلها في اللعبة، وتقرأ الأخطاء وتعليقات البيئة، وتصحيح الأخطاء الذاتية حتى تعمل المهارة، ومكتبة المهارات حيث يتم تخزين كل مهارة تم التحقق منها وفهرستها من خلال تضمين وصف اللغة الطبيعية. ونظرًا لأن المهارات الجديدة تتكون من مهارات مخزنة مسبقًا، فإن القدرات تتراكم بمرور الوقت. حصلت Voyager على المزيد من العناصر الفريدة، وقطعت مسافات أطول، وفتحت معالم شجرة التكنولوجيا بشكل أسرع بكثير من العملاء السابقين، وانتقلت مهاراتها المكتسبة إلى عوالم جديدة.
البصيرة الفنية
تتعلم Voyager في السياق، وليس عن طريق تغيير أوزان النماذج. المهارة عبارة عن مقتطف كود تم التحقق منه؛ يتم حفظها مع تضمين الوصف الخاص بها بحيث أنه عند ظهور مهمة جديدة، يتم استرجاع المهارات ذات الصلة لغويًا وتوفيرها كعناصر أساسية. حلقة التحسين الذاتي هي: إنشاء التعليمات البرمجية، والتنفيذ، ومراقبة الأخطاء وحالة اللعبة، ومطالبة النموذج بإصلاحه، والتكرار. يؤدي هذا إلى تحويل التجربة والخطأ إلى برامج متينة وقابلة للتركيب بدلاً من التفكير سريع الزوال.
إتقان Voyager ووكلاء مكتبة المهارات
Voyager هو وكيل مدعوم من LLM في عام 2023 يلعب لعبة Minecraft بشكل مستقل، ويتعلم باستمرار عن طريق كتابة مهارات التعليمات البرمجية القابلة لإعادة الاستخدام وتخزينها في مكتبة متنامية. لقد أظهر أن الوكيل يمكنه القيام بالتعلم المفتوح مدى الحياة دون أي تحديثات متدرجة، وذلك ببساطة عن طريق تجميع البرامج وإعادة استخدامها. يعد Voyager وSkill-Library Agents بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع. لبناء فهم عميق، تعامل مع Voyager وSkill-Library Agents كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.
من الناحية العملية، تعمل الفرق القوية التي تستخدم Voyager وSkill-Library Agents على تحسين خيارات البنية والبيانات والبنية التحتية مقابل الموثوقية والتكلفة. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.
تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي الوقت نفسه، يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.
التأثير الاستراتيجي
تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات.
تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث.
يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج.
تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
التنفيذ في العالم الحقيقي
التقدم بشكل مستقل من خلال شجرة التكنولوجيا في Minecraft (من الخشب إلى الحجر إلى الحديد إلى أدوات الماس) من خلال تكوين المهارات المكتسبة.
كتابة وتصحيح الأخطاء الذاتية لمهارة التعليمات البرمجية "الخاصة بي والحرفية"، ثم إعادة استخدامها كلما تكررت هذه المهمة الفرعية.
استرجاع مهارة "محاربة الزومبي" المخزنة مسبقًا من خلال تضمين وصفها عند ظهور تهديد مماثل.
نقل مكتبة المهارات المكتسبة إلى عالم Minecraft الذي تم إنشاؤه حديثًا لبدء المهام الجديدة بشكل أسرع.
أنماط التنفيذ
Voyager ووكلاء مكتبة المهارات في الممارسة العملية
التقدم بشكل مستقل من خلال شجرة التكنولوجيا في Minecraft (من الخشب إلى الحجر إلى الحديد إلى أدوات الماس) من خلال تكوين المهارات المكتسبة.
التقدم بشكل مستقل من خلال شجرة تكنولوجيا Minecraft (من الخشب إلى الحجر إلى الحديد إلى أدوات الماس) من خلال تكوين المهارات المكتسبة، وعادة ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
Voyager ووكلاء مكتبة المهارات في الممارسة العملية
كتابة وتصحيح الأخطاء الذاتية لمهارة التعليمات البرمجية "الخاصة بي والحرفية"، ثم إعادة استخدامها كلما تكررت هذه المهمة الفرعية.
كتابة مهارة التعليمات البرمجية "الخاصة بالصناعة الحرفية" وتصحيح الأخطاء فيها ذاتيًا، ثم إعادة استخدامها كلما تكررت هذه المهمة الفرعية. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
Voyager ووكلاء مكتبة المهارات في الممارسة العملية
استرجاع مهارة "محاربة الزومبي" المخزنة مسبقًا من خلال تضمين وصفها عند ظهور تهديد مماثل.
استرداد مهارة "مكافحة الزومبي" المخزنة مسبقًا من خلال تضمين الوصف عند ظهور تهديد مماثل، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
Voyager ووكلاء مكتبة المهارات في الممارسة العملية
نقل مكتبة المهارات المكتسبة إلى عالم Minecraft الذي تم إنشاؤه حديثًا لبدء المهام الجديدة بشكل أسرع.
نقل مكتبة المهارات المكتسبة إلى عالم Minecraft الذي تم إنشاؤه حديثًا لبدء المهام الجديدة بشكل أسرع، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
المخاطر والدرابزين
يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع.
غالبًا ما يتم التقليل من تكاليف البنية التحتية والصيانة.
يمكن أن تنمو الفجوات الأمنية وقابلية المراقبة عندما تصبح الأنظمة أكثر تعقيدًا.
خارطة طريق التنفيذ
تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ.
تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
المعيار في ظل ظروف التحميل والبيانات الواقعية.
المعيار في ظل ظروف التحميل والبيانات الواقعية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم.
مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس.
قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.