دليل اللغة AI

الإشراف على العمليات للاستدلال الرياضي

يكافئ الإشراف على العملية النموذج مقابل كل خطوة صحيحة في سلسلة التفكير، وليس فقط الإجابة النهائية.

نظرة عامة

يكافئ الإشراف على العملية النموذج مقابل كل خطوة صحيحة في سلسلة التفكير، وليس فقط الإجابة النهائية. بالنسبة للرياضيات، حيث تدمر خطوة واحدة خاطئة كل شيء، فإن تصنيف العمل نفسه ينتج عنه حلول أكثر موثوقية.

يعد الإشراف على العمليات للاستدلال الرياضي جزءًا من حزمة لغة الذكاء الاصطناعي المستخدمة لقراءة النص والكلام وإنشائه وتصنيفه وتحويله على نطاق واسع.

الغوص العميق

تسجل معظم نماذج المكافآت الإجابة النهائية فقط (الإشراف على النتائج). يتيح ذلك للنموذج "أن يكون محظوظًا" - حيث يصل إلى الرقم الصحيح من خلال خطوات معيبة تؤدي إلى الإلغاء. بدلاً من ذلك، يقوم الإشراف على العمليات بتدريب نموذج مكافأة العملية (PRM) على تسميات بشرية أو الذكاء الاصطناعي التي تحدد كل خطوة وسيطة على أنها صحيحة أو غير صحيحة أو محايدة. أصدرت ورقة OpenAI لعام 2023 بعنوان "دعونا نتحقق خطوة بخطوة" PRM800K، وما يقرب من 800000 ملصق على مستوى الخطوة حول مشكلات MATH، وأظهرت أن أداة التحقق الخاضعة للإشراف على العملية قامت بحل 78% من مجموعة فرعية للاختبار مقابل خط أساس أضعف للنتائج فقط. يتم استخدام PRM للاستدلال لترتيب العديد من الحلول التي تم أخذ عينات منها، واختيار السلسلة ذات أعلى درجة دنيا للخطوة. كما أنه يقدم تعليقات قابلة للتفسير: يمكنك أن ترى بالضبط أين ينهار المنطق.

البصيرة الفنية

في وقت الاختبار، يقوم النموذج بأخذ عينات من العديد من الحلول المرشحة؛ يسجل PRM كل خطوة وعادةً ما تكون النتيجة الإجمالية للحل هي المنتج (أو الحد الأدنى) لاحتمالات الصحة لكل خطوة. ثم يقوم "الأفضل من بين N" باختيار السلسلة ذات أعلى الدرجات. ونظرًا لأن الرصيد يتم تعيينه محليًا، فإن إشارة التدريب تكون أكثر كثافة وأقل ضجيجًا من مكافأة نهاية التسلسل الفردية، مما يقلل من اختراق المكافأة حيث تؤدي الخطوات الخاطئة بالصدفة إلى الإجابات الصحيحة.

إتقان الإشراف على العمليات للاستدلال الرياضي

يكافئ الإشراف على العملية النموذج مقابل كل خطوة صحيحة في سلسلة التفكير، وليس فقط الإجابة النهائية. بالنسبة للرياضيات، حيث تدمر خطوة واحدة خاطئة كل شيء، فإن تصنيف العمل نفسه ينتج عنه حلول أكثر موثوقية. يعد الإشراف على العمليات للاستدلال الرياضي جزءًا من حزمة لغة الذكاء الاصطناعي المستخدمة لقراءة النص والكلام وإنشائه وتصنيفه وتحويله على نطاق واسع. لبناء فهم عميق، تعامل مع الإشراف على العمليات للاستدلال الرياضي كنموذج تشغيلي، وليس كميزة واحدة: حدد النتائج المرغوبة، ووضح الافتراضات، وافصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تستخدم الفرق القوية الإشراف على العمليات للاستدلال الرياضي في تصميم حلقات المطالبة والاسترجاع والمراجعة كنظام اتصال متكامل واحد. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي الوقت نفسه، يمكن للحقائق المهلوسة أن تدخل التقارير أو التدفقات الداعمة أو مخرجات البحث بهدوء. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق.

يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

فهو يوسع الوصول عبر اللغات وأنماط الاتصال.

فهو يوسع الوصول عبر اللغات وأنماط الاتصال. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار.

يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل الإشراف على العمليات للاستدلال الرياضي

يعد وضع العلامات اليدوية على الخطوات مكلفًا، لذا تتحول الأبحاث إلى الإشراف الآلي على العمليات - باستخدام عمليات إطلاق مونت كارلو (Math-Shepherd) لتقدير قيمة كل خطوة دون تسميات بشرية، أو استخدام نماذج أقوى للحكم على النماذج الأضعف. توقع أن تؤدي إدارة المخاطر (PRM) إلى تحسين التعلم المعزز، وليس مجرد إعادة الترتيب، وأن تنتشر إلى ما هو أبعد من الرياضيات إلى التعليمات البرمجية، والأدلة العلمية، والتخطيط الفعال متعدد الخطوات حيث تكون صحة مستوى الخطوة مهمة.

التنفيذ في العالم الحقيقي

مجموعة بيانات OpenAI's PRM800K: 800 ألف علامة على مستوى الخطوة البشرية تُستخدم لتدريب القائمين على التحقق على معيار MATH

Math-Shepherd: وضع علامة على صحة الخطوة تلقائيًا عبر عمليات نشر مونت كارلو لتجنب التعليقات التوضيحية البشرية المكلفة

إعادة ترتيب الأفضل من N: إنشاء 256 حلًا واختيار الحل الذي يسجل PRM أعلى النتائج في كل خطوة

أدوات التدريس التي تحدد السطر الدقيق في الحل الذي عمل عليه الطالب حيث يظهر الخطأ لأول مرة

أنماط التنفيذ

الإشراف على العمليات للاستدلال الرياضي في الممارسة العملية

مجموعة بيانات OpenAI's PRM800K: 800 ألف علامة على مستوى الخطوة البشرية تُستخدم لتدريب القائمين على التحقق على معيار MATH.

مجموعة بيانات OpenAI's PRM800K: 800 ألف علامة على مستوى الخطوة البشرية المستخدمة لتدريب المدققين على معيار MATH تحصل الفرق عادةً على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

الإشراف على العمليات للاستدلال الرياضي في الممارسة العملية

Math-Shepherd: وضع علامة على صحة الخطوة تلقائيًا عبر عمليات نشر مونت كارلو لتجنب التعليقات التوضيحية البشرية المكلفة.

Math-Shepherd: وضع علامة على صحة الخطوة تلقائيًا من خلال عمليات نشر مونت كارلو لتجنب التعليقات التوضيحية البشرية المكلفة، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

الإشراف على العمليات للاستدلال الرياضي في الممارسة العملية

إعادة ترتيب الأفضل من N: إنشاء 256 حلًا واختيار الحل الذي يسجل PRM أعلى النتائج في كل خطوة.

إعادة ترتيب الأفضل من N: إنشاء 256 حلًا واختيار الحل الذي يسجل PRM أعلى النتائج في كل خطوة تحصل الفرق عادةً على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

الإشراف على العمليات للاستدلال الرياضي في الممارسة العملية

أدوات التدريس التي تحدد السطر الدقيق في الحل الذي عمل عليه الطالب حيث يظهر الخطأ لأول مرة.

أدوات التدريس التي تشير إلى الخط الدقيق في الحل الذي عمل عليه الطالب حيث يظهر الخطأ لأول مرة عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

يمكن للحقائق المهلوسة إدخال التقارير أو تدفقات الدعم أو مخرجات البحث بهدوء.

!

يمكن أن تؤدي الحساسية السريعة إلى نتائج غير متناسقة عبر الطلبات المماثلة.

!

قد يتم كشف البيانات النصية الحساسة إذا كانت عناصر التحكم في الوصول ضعيفة.

خارطة طريق التنفيذ

1

حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل.

حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة.

استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر.

احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام.

تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف