نظرة عامة
الانعكاس هو أسلوب يعكس فيه وكيل الذكاء الاصطناعي كتابيًا إخفاقاته ويغذي هذه الدروس مرة أخرى في محاولته التالية. إنه أمر مهم لأنه يتيح للوكلاء تحسين المهمة دون إعادة تدريب النموذج الأساسي.
يركز وكلاء الانعكاس والتصحيح الذاتي على النشر العملي: تحويل قدرة النموذج إلى سير عمل يومي موثوق به يقدم قيمة قابلة للقياس.
الغوص العميق
يمنح الانعكاس، الذي قدمه شين وزملاؤه في بحث عام 2023، العميل حلقة: فهو يحاول تنفيذ مهمة، ويتلقى إشارة حول كيفية تنفيذها (نتيجة اختبار، أو مكافأة، أو نقد)، ثم يكتب "انعكاسًا" قصيرًا باللغة الطبيعية يشرح الخطأ الذي حدث وما يجب تجربته بعد ذلك. يتم تخزين هذا الانعكاس في الذاكرة وإضافته إلى مطالبة المحاولة التالية. والأهم من ذلك أن أوزان النموذج لا تتغير أبدًا؛ يحدث التعلم بالكامل في نافذة السياق كنص. يتيح "التعلم المعزز اللفظي" للوكلاء تكرار مشاكل البرمجة والتنقل عبر الويب ومهام التفكير. في معيار ترميز HumanEval، أدى التصحيح الذاتي بأسلوب الانعكاس إلى رفع معدلات النجاح بشكل كبير عن المحاولات الفردية، وذلك ببساطة عن طريق السماح للعميل بتصحيح أخطائه عبر بضع محاولات.
البصيرة الفنية
يفصل الانعكاس بين ثلاثة أدوار: الممثل الذي يولد الإجراءات، والمقيم الذي يسجل النتيجة (اختبارات الوحدة، أو فحص المطابقة التامة، أو حكم LLM)، ونموذج التأمل الذاتي الذي يحول تلك النتيجة إلى درس نصي. يتم وضع الدرس في مخزن مؤقت للذاكرة العرضية يُعاد استخدامه في التجربة التالية. نظرًا لأن التعليقات عبارة عن لغة وليست تدرجات، فلا حاجة إلى تدريب على وحدة معالجة الرسومات، ولكنها تعتمد بشكل كبير على إشارة تقييم موثوقة لتجنب تعزيز الانعكاسات الواثقة ولكن الخاطئة.
إتقان الانعكاس وعوامل التصحيح الذاتي
الانعكاس هو أسلوب يعكس فيه وكيل الذكاء الاصطناعي كتابيًا إخفاقاته ويغذي هذه الدروس مرة أخرى في محاولته التالية. إنه أمر مهم لأنه يتيح للوكلاء تحسين المهمة دون إعادة تدريب النموذج الأساسي. يركز وكلاء الانعكاس والتصحيح الذاتي على النشر العملي: تحويل قدرة النموذج إلى سير عمل يومي موثوق به يقدم قيمة قابلة للقياس. لبناء فهم عميق، يجب التعامل مع عوامل الانعكاس والتصحيح الذاتي كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.
من الناحية العملية، تركز الفرق القوية التي تستخدم عوامل الانعكاس والتصحيح الذاتي على نتائج سير العمل، وليس العروض التوضيحية النموذجية، وتحدد نقاط التفتيش البشرية مبكرًا. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.
يحدد التصميم على مستوى التطبيق ما إذا كان الذكاء الاصطناعي سيحسن النتائج الحقيقية. وفي الوقت نفسه، يمكن أن تؤدي أتمتة عملية معطلة إلى تضخيم المشاكل الموجودة. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.
التأثير الاستراتيجي
يحدد التصميم على مستوى التطبيق ما إذا كان الذكاء الاصطناعي سيحسن النتائج الحقيقية.
يحدد التصميم على مستوى التطبيق ما إذا كان الذكاء الاصطناعي سيحسن النتائج الحقيقية. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
يؤدي التكامل الجيد لسير العمل إلى تحقيق مكاسب إنتاجية يمكن للمستخدمين الوثوق بها.
يؤدي التكامل الجيد لسير العمل إلى تحقيق مكاسب إنتاجية يمكن للمستخدمين الوثوق بها. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
تعمل حالات الاستخدام ذات النطاق الجيد على تقليل إجهاد التغيير ومخاطر التنفيذ.
تعمل حالات الاستخدام ذات النطاق الجيد على تقليل إجهاد التغيير ومخاطر التنفيذ. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
التنفيذ في العالم الحقيقي
وكيل ترميز يقوم بإجراء اختبارات الوحدة، ويقرأ التأكيد الفاشل، ويكتب ملاحظة حول الخطأ، ويحرر التعليمات البرمجية الخاصة به قبل إعادة تشغيل المجموعة.
مساعد بحث يلتقط اقتباسًا مهلوسًا عندما يفشل فحص الاسترجاع، ثم يقوم بمراجعة الإجابة لاستخدام المصادر التي تم التحقق منها فقط.
وكيل التنقل عبر الويب (على سبيل المثال، في معايير AlfWorld أو WebShop) الذي يسجل "لقد قمت بالنقر فوق عامل التصفية الخاطئ" ويتجنب هذا الخطأ عند إعادة المحاولة.
أداة حل مسائل رياضية تتحقق من إجابتها النهائية مقابل أحد القيود، وتلاحظ وجود خطأ في الإشارة، وتعيد صياغة الخطوة ذات الصلة.
أنماط التنفيذ
عوامل الانعكاس والتصحيح الذاتي في الممارسة العملية
وكيل ترميز يقوم بإجراء اختبارات الوحدة، ويقرأ التأكيد الفاشل، ويكتب ملاحظة حول الخطأ، ويحرر التعليمات البرمجية الخاصة به قبل إعادة تشغيل المجموعة.
وكيل ترميز يقوم بإجراء اختبارات الوحدة، ويقرأ التأكيد الفاشل، ويكتب ملاحظة حول الخطأ، ويحرر التعليمات البرمجية الخاصة به قبل إعادة تشغيل المجموعة. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
عوامل الانعكاس والتصحيح الذاتي في الممارسة العملية
مساعد بحث يلتقط اقتباسًا مهلوسًا عندما يفشل فحص الاسترجاع، ثم يقوم بمراجعة الإجابة لاستخدام المصادر التي تم التحقق منها فقط.
مساعد باحث يلتقط اقتباسًا مهووسًا عندما يفشل فحص الاسترجاع، ثم يراجع الإجابة لاستخدام المصادر التي تم التحقق منها فقط. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
عوامل الانعكاس والتصحيح الذاتي في الممارسة العملية
وكيل التنقل عبر الويب (على سبيل المثال، في معايير AlfWorld أو WebShop) الذي يسجل "لقد قمت بالنقر فوق عامل التصفية الخاطئ" ويتجنب هذا الخطأ عند إعادة المحاولة.
وكيل التنقل عبر الويب (على سبيل المثال، في معايير AlfWorld أو WebShop) الذي يسجل "لقد قمت بالنقر فوق عامل التصفية الخطأ" ويتجنب هذا الخطأ عند إعادة المحاولة. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
عوامل الانعكاس والتصحيح الذاتي في الممارسة العملية
أداة حل مسائل رياضية تتحقق من إجابتها النهائية مقابل أحد القيود، وتلاحظ وجود خطأ في الإشارة، وتعيد صياغة الخطوة ذات الصلة.
أداة حل المشكلات الرياضية التي تتحقق من إجابتها النهائية مقابل أحد القيود، وتلاحظ وجود خطأ في الإشارة، وتعيد صياغة الخطوة ذات الصلة. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الخطأ مع مرور الوقت.
المخاطر والدرابزين
يمكن أن تؤدي أتمتة عملية معطلة إلى تضخيم المشاكل الموجودة.
قد تقوم الفرق بالإفراط في أتمتة وإزالة الحكم البشري المطلوب.
يمكن أن تنحرف الجودة إذا لم يتم تقييم المخرجات بشكل مستمر.
خارطة طريق التنفيذ
قم بتخطيط سير العمل الحالي وحدد خطوة الاحتكاك الأعلى.
قم بتخطيط سير العمل الحالي وحدد خطوة الاحتكاك الأعلى. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
تحديد نقاط التفتيش البشرية قبل الأتمتة الكاملة.
تحديد نقاط التفتيش البشرية قبل الأتمتة الكاملة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
تدريب المستخدمين على المطالبات ومسارات التصعيد ومعايير الجودة.
تدريب المستخدمين على المطالبات ومسارات التصعيد ومعايير الجودة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
تتبع النتائج على مستوى المهمة لتأكيد القيمة المستدامة.
تتبع النتائج على مستوى المهمة لتأكيد القيمة المستدامة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.