نظرة عامة
يعد تحسين السياسة النسبية للمجموعة (GRPO) أسلوبًا للتعلم المعزز لتحسين نماذج اللغة التي تحكم على كل إجابة مقابل مجموعة من الإجابات الشقيقة لنفس الموجه، مما يلغي شبكة القيمة المنفصلة التي يستخدمها PPO. لقد أصبحت مشهورة باعتبارها خدعة التدريب الأساسية وراء نماذج التفكير الخاصة بـ DeepSeek.
يعد تحسين السياسة النسبية للمجموعة بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع.
الغوص العميق
GRPO هو أحد أشكال التعلم المعزز المتدرج للسياسة المصمم لجعل الضبط الدقيق لنماذج اللغات الكبيرة أرخص وأكثر استقرارًا. يحتاج PPO القياسي إلى "ناقد" متعلم (نموذج القيمة)، تقريبًا بحجم السياسة نفسها، لتقدير مدى جودة كل رمز مميز. تقوم GRPO بإزالة هذا الناقد تمامًا. بالنسبة لكل موجه، يقوم بأخذ عينات من مجموعة من الإكمالات (على سبيل المثال 8-64)، ويسجلها جميعًا بإشارة مكافأة، ثم يحسب ميزة كل إنجاز من خلال توحيد مكافأته مقابل متوسط المجموعة والانحراف المعياري. يتم تعزيز الإجابات فوق المتوسط وإلغاء الإجابات الأقل من المتوسط. يُبقي مصطلح تباعد KL النموذج قريبًا من السياسة المرجعية. تم تقديمه بواسطة DeepSeek، وهو يدعم DeepSeekMath ونماذج التفكير DeepSeek-R1.
البصيرة الفنية
الفكرة الأساسية هي استبدال خط الأساس للقيمة المكتسبة لـ PPO بخط أساس لمجموعة مونت كارلو. بالنسبة لمجموعة من المخرجات ذات المكافآت r_i، تكون كل ميزة هي A_i = (r_i - mean(r)) / std(r). تضاعف هذه النتيجة الطبيعية نسبة الاحتمال المقطوعة، تمامًا كما هو الحال في PPO، كما أن عقوبة KL ضد النموذج المرجعي المتجمد تحد من الانحراف. ونظرًا لعدم تدريب أي ناقد، تنخفض الذاكرة والحوسبة إلى النصف تقريبًا، وتمنح التسوية السريعة مزايا منخفضة التباين ومقياسًا طبيعيًا.
إتقان تحسين السياسة النسبية للمجموعة
يعد تحسين السياسة النسبية للمجموعة (GRPO) أسلوبًا للتعلم المعزز لتحسين نماذج اللغة التي تحكم على كل إجابة مقابل مجموعة من الإجابات الشقيقة لنفس الموجه، مما يلغي شبكة القيمة المنفصلة التي يستخدمها PPO. لقد أصبحت مشهورة باعتبارها خدعة التدريب الأساسية وراء نماذج التفكير الخاصة بـ DeepSeek. يعد تحسين السياسة النسبية للمجموعة بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع. لبناء فهم عميق، تعامل مع تحسين السياسة النسبية للمجموعة كنموذج تشغيل، وليس كميزة واحدة: حدد النتائج المرغوبة، ووضح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.
من الناحية العملية، تعمل الفرق القوية التي تستخدم تحسين السياسة النسبية للمجموعة على تحسين خيارات البنية والبيانات والبنية التحتية مقابل الموثوقية والتكلفة. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.
تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي الوقت نفسه، يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.
التأثير الاستراتيجي
تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات.
تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث.
يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج.
تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
التنفيذ في العالم الحقيقي
تدريب DeepSeek-R1 وDeepSeekMath لإنتاج سلسلة طويلة من التفكير باستخدام مكافآت الصحة القائمة على القواعد في مسائل الرياضيات
الضبط الدقيق لنماذج إنشاء الأكواد حيث يتم تسجيل كل حل عينة من خلال ما إذا كان يجتاز اختبارات الوحدة، ويتم تسوية المجموعة لاختيار الفائزين
خطوط أنابيب RLHF مفتوحة المصدر (على سبيل المثال، في مكتبات TRL وverl) باستخدام GRPO لمواءمة نماذج الدردشة دون الدفع مقابل شبكة قيمة منفصلة
تحسين اتباع التعليمات أو سلوك السلامة من خلال أخذ عينات من العديد من الاستجابات لكل موجه ومكافأة تلك الاستجابات بنموذج المكافأة الذي يسجل أعلى نسبة مقارنة بأقرانهم
أنماط التنفيذ
تحسين السياسة النسبية للمجموعة في الممارسة العملية
تدريب DeepSeek-R1 وDeepSeekMath لإنتاج استدلال طويل لسلسلة من الأفكار باستخدام مكافآت الصحة القائمة على القواعد في المسائل الرياضية.
تدريب DeepSeek-R1 وDeepSeekMath لإنتاج استدلال طويل لسلسلة من الأفكار باستخدام مكافآت صحيحة قائمة على القواعد في مسائل الرياضيات، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الخطأ مع مرور الوقت.
تحسين السياسة النسبية للمجموعة في الممارسة العملية
ضبط نماذج إنشاء الأكواد بدقة حيث يتم تسجيل كل حل تم أخذ عينات منه من خلال اجتيازه اختبارات الوحدة، ويتم تسوية المجموعة لاختيار الفائزين.
ضبط نماذج إنشاء التعليمات البرمجية حيث يتم تسجيل كل حل عينة من خلال ما إذا كان يجتاز اختبارات الوحدة، ويتم تسوية المجموعة لاختيار الفائزين. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الخطأ مع مرور الوقت.
تحسين السياسة النسبية للمجموعة في الممارسة العملية
خطوط أنابيب RLHF مفتوحة المصدر (على سبيل المثال، في مكتبات TRL وverl) تستخدم GRPO لمواءمة نماذج الدردشة دون الدفع مقابل شبكة قيمة منفصلة.
خطوط أنابيب RLHF مفتوحة المصدر (على سبيل المثال، في مكتبات TRL وverl) تستخدم GRPO لمواءمة نماذج الدردشة دون الدفع مقابل شبكة قيمة منفصلة. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتبع كل من مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
تحسين السياسة النسبية للمجموعة في الممارسة العملية
تحسين اتباع التعليمات أو سلوك السلامة من خلال أخذ عينات من عدة استجابات لكل موجه ومكافأة تلك التي يصنفها نموذج المكافأة على أنها أعلى نسبة إلى أقرانهم.
تحسين اتباع التعليمات أو سلوك السلامة من خلال أخذ عينات من عدة استجابات لكل موجه ومكافأة تلك الاستجابات بمعدلات نموذج المكافأة الأعلى مقارنة بأقرانهم. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الخطأ مع مرور الوقت.
المخاطر والدرابزين
يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع.
غالبًا ما يتم التقليل من تكاليف البنية التحتية والصيانة.
يمكن أن تنمو الفجوات الأمنية وقابلية المراقبة عندما تصبح الأنظمة أكثر تعقيدًا.
خارطة طريق التنفيذ
تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ.
تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
المعيار في ظل ظروف التحميل والبيانات الواقعية.
المعيار في ظل ظروف التحميل والبيانات الواقعية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم.
مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس.
قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.