دليل اللغة AI

تحسين السياسة القريبة

إن تحسين السياسة القريبة (PPO) هو خوارزمية التعلم المعزز الأكثر ارتباطًا بنماذج اللغة الدقيقة من التعليقات البشرية.

نظرة عامة

إن تحسين السياسة القريبة (PPO) هو خوارزمية التعلم المعزز الأكثر ارتباطًا بنماذج اللغة الدقيقة من التعليقات البشرية. فهو يعمل على تحسين السياسة من خلال خطوات صغيرة ودقيقة لتجنب عدم الاستقرار الذي ابتليت به أساليب التدرج الساذجة في السياسة.

يُعد تحسين السياسة القريبة جزءًا من حزمة لغة الذكاء الاصطناعي المستخدمة لقراءة النص والكلام وإنشاءه وتصنيفه وتحويله على نطاق واسع.

الغوص العميق

تم تقديم PPO بواسطة OpenAI في عام 2017 وأصبح العمود الفقري وراء RLHF لأنظمة مثل InstructGPT وChatGPT. يتمثل التحدي الأساسي في RL الخاص بتدرج السياسة في أن تحديثًا واحدًا كبيرًا جدًا يمكن أن يؤدي إلى انهيار الأداء. يعالج PPO هذا الأمر من خلال "هدف بديل مقصوص": فهو يقيس مدى احتمالية حدوث إجراء ما مقابل السياسة القديمة، ويضرب هذه النسبة في الميزة (مدى تحسن الإجراء عما كان متوقعًا)، ويقطع النسبة إلى نطاق صغير مثل 0.8 إلى 1.2. ويحدد هذا المدى الذي يمكن أن تتحرك به السياسة لكل تحديث، مما يحافظ على استقرار التعلم مع السماح بالتحسين المستمر. في نموذج اللغة RLHF، يقوم "الإجراء" بإنشاء رمز مميز أو استجابة، وتأتي المكافأة من نموذج المكافأة، وعقوبة تباعد KL تمنع النموذج من الانجراف بعيدًا عن سلوكه الأصلي.

البصيرة الفنية

يعمل PPO على زيادة الهدف المقطوع إلى الحد الأقصى: الحد الأدنى (النسبة * الميزة، المقطع (النسبة، 1-eps، 1+eps) * الميزة)، حيث تكون النسبة هي احتمال الإجراء الجديد على القديم. عادة ما يتم تقدير المزايا باستخدام تقدير المزايا المعمم وشبكة القيمة المستفادة (النقدية). في RLHF، يجمع إجمالي المكافأة بين نقاط نموذج المكافأة وعقوبة KL لكل رمز مقابل السياسة المرجعية، مما يؤدي إلى موازنة مكاسب المكافأة مقابل البقاء بالقرب من النموذج الأصلي.

إتقان تحسين السياسة القريبة

إن تحسين السياسة القريبة (PPO) هو خوارزمية التعلم المعزز الأكثر ارتباطًا بنماذج اللغة الدقيقة من التعليقات البشرية. فهو يعمل على تحسين السياسة من خلال خطوات صغيرة ودقيقة لتجنب عدم الاستقرار الذي ابتليت به أساليب التدرج الساذجة في السياسة. يُعد تحسين السياسة القريبة جزءًا من حزمة لغة الذكاء الاصطناعي المستخدمة لقراءة النص والكلام وإنشاءه وتصنيفه وتحويله على نطاق واسع. لبناء فهم عميق، يجب التعامل مع تحسين السياسة القريبة كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تستخدم الفرق القوية تصميم Proximal Policy Optimization للمطالبات والاسترجاع والمراجعة كنظام اتصال متكامل واحد. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي الوقت نفسه، يمكن للحقائق المهلوسة أن تدخل التقارير أو التدفقات الداعمة أو مخرجات البحث بهدوء. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق.

يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

فهو يوسع الوصول عبر اللغات وأنماط الاتصال.

فهو يوسع الوصول عبر اللغات وأنماط الاتصال. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار.

يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل تحسين السياسة القريبة

يظل PPO قويًا ولكنه معروف بأنه تافه: فهو يحتاج إلى شبكة قيمة منفصلة، ​​وضبط دقيق للمعلمات الفائقة، والكثير من العمليات الحسابية. تكتسب البدائل الأبسط المزيد من الأرض، بما في ذلك DPO (بدون RL على الإطلاق) وGRPO، الذي يسقط شبكة القيمة من خلال تقدير المزايا من مجموعات من الاستجابات التي تم أخذ عينات منها، كما دعم نماذج الاستدلال الحديثة. ستستمر عمليات PPO حيث يساعد الاستكشاف في السياسة حقًا، لكن هذا المجال يتاجر بنشاط ببعض تعقيداته من أجل طرق أرخص.

التنفيذ في العالم الحقيقي

الضبط الدقيق لـ InstructGPT وChatGPT لاتباع التعليمات والتفضيلات البشرية عبر RLHF

تدريب وكلاء اللعب والتحكم في الروبوتات، المجال الأصلي لـ PPO قبل نماذج اللغة

تقليل السمية أو تحسين المساعدة من خلال تعظيم درجة نموذج المكافأة تحت قيود KL

تحسين استخدام الأداة أو سلوك الوكيل متعدد الخطوات حيث تتم مكافأة النموذج لإكمال المهام بشكل صحيح

أنماط التنفيذ

تحسين السياسة القريبة في الممارسة العملية

الضبط الدقيق لـ InstructGPT وChatGPT لاتباع التعليمات والتفضيلات البشرية عبر RLHF.

الضبط الدقيق لـ InstructGPT وChatGPT لاتباع التعليمات والتفضيلات البشرية عبر RLHF عادةً ما تحصل فرق RLHF على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

تحسين السياسة القريبة في الممارسة العملية

تدريب وكلاء اللعب والتحكم في الروبوتات، المجال الأصلي لـ PPO قبل نماذج اللغة.

تدريب وكلاء التحكم في الألعاب والروبوتات، وهو المجال الأصلي لـ PPO قبل نماذج اللغة، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

تحسين السياسة القريبة في الممارسة العملية

تقليل السمية أو تحسين المساعدة من خلال تعظيم درجة نموذج المكافأة تحت قيود KL.

تقليل السمية أو تحسين المساعدة من خلال تعظيم درجة نموذج المكافأة في ظل قيود KL عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

تحسين السياسة القريبة في الممارسة العملية

تحسين استخدام الأداة أو سلوك الوكيل متعدد الخطوات حيث تتم مكافأة النموذج لإكمال المهام بشكل صحيح.

تحسين استخدام الأداة أو سلوك الوكيل متعدد الخطوات حيث تتم مكافأة النموذج لإكمال المهام بشكل صحيح. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

يمكن للحقائق المهلوسة إدخال التقارير أو تدفقات الدعم أو مخرجات البحث بهدوء.

!

يمكن أن تؤدي الحساسية السريعة إلى نتائج غير متناسقة عبر الطلبات المماثلة.

!

قد يتم كشف البيانات النصية الحساسة إذا كانت عناصر التحكم في الوصول ضعيفة.

خارطة طريق التنفيذ

1

حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل.

حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة.

استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر.

احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام.

تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف