دليل نمذجة مكافأة برادلي تيري

نظرة عامة

يعد نموذج برادلي-تيري طريقة إحصائية عمرها قرن من الزمان لتحويل المقارنات الزوجية (أ يدق ب) إلى درجات رقمية. في الذكاء الاصطناعي الحديث، يتم تشغيل نماذج المكافأة التي تتعلم التفضيلات البشرية من خلال "أي إجابة أفضل؟" التسميات، العمود الفقري لـ RLHF.

تقع نماذج مكافآت برادلي-تيري ضمن مجموعة أدوات الذكاء الاصطناعي الأساسية. عندما تفهمها، يصبح تقييم موضوعات الذكاء الاصطناعي الأخرى ومقارنتها أسهل.

الغوص العميق

يفترض برادلي تيري، الذي تم تقديمه في عام 1952، أن كل عنصر لديه درجة قوة مخفية، واحتمال أن يتفوق العنصر "أ" على العنصر "ب" هو الوظيفة اللوجستية لفارق درجاتهم. في محاذاة الذكاء الاصطناعي، يتم تعيين هذا بدقة على بيانات التفضيل: يرى واضعو العلامات البشرية استجابتين نموذجيتين ويختاران الأفضل، بدلاً من إعطاء تقييمات مطلقة يصعب معايرتها. يتم تدريب نموذج المكافأة، وهو عادةً نموذج اللغة ذو رأس الإخراج العددي، بحيث تحصل الاستجابة التي يفضلها البشر على مكافأة عددية أعلى. الخسارة هي الاحتمالية اللوغاريتمية السلبية لاحتمالية برادلي-تيري: تعظيم اللوغاريتم السيني لـ (مكافأة المختار ناقص مكافأة المرفوضة). يقوم نموذج المكافأة الناتج بعد ذلك بتسجيل مخرجات عشوائية، مما يوفر إشارة مفادها أن خوارزميات التعلم المعزز مثل PPO تعمل على تحسينها لجعل النماذج أكثر فائدة ومواءمة.

البصيرة الفنية

خسارة التدريب للمقارنة هي ببساطة ناقص اللوغاريتم السيني لـ (r_chosen − r_rejected)، وبالتالي فإن النموذج يتعلم فقط الاختلافات النسبية. وهذا يعني أنه لا يمكن تحديد المكافآت إلا من خلال ثابت إضافي؛ المقياس المطلق تعسفي. نظرًا لأن المقارنات أسهل وأكثر اتساقًا بالنسبة للبشر من نتائج من 1 إلى 10، فإن بيانات برادلي-تيري أقل تشويشًا. أظهر تحسين التفضيل المباشر لاحقًا أنه يمكنك تخطي نموذج المكافأة المنفصل وتحسين هدف برادلي-تيري مباشرة في السياسة.

إتقان نمذجة مكافأة برادلي تيري

لبناء فهم عميق، تعامل مع نموذج مكافأة برادلي-تيري كنموذج تشغيلي، وليس كميزة واحدة. تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تقوم الفرق القوية التي تستخدم نماذج مكافآت برادلي-تيري ببناء نماذج مفاهيمية قوية أولاً، ثم تقوم بتعيين تلك النماذج لقيود الإنتاج الحقيقية. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق. وفي الوقت نفسه، قد تستخدم الفرق المختلفة نفس المصطلح بشكل مختلف، لذا حدد النطاق مبكرًا. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق.

يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكنك طرح أسئلة تنفيذ أفضل قبل إنفاق المال أو الوقت.

يمكنك طرح أسئلة تنفيذ أفضل قبل إنفاق المال أو الوقت. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

تتخذ الفرق ذات الفهم المشترك قرارات أفضل بشأن المنتجات والسياسات والتعلم.

تتخذ الفرق ذات الفهم المشترك قرارات أفضل بشأن المنتجات والسياسات والتعلم. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل نمذجة مكافأة برادلي تيري

يفترض برادلي تيري تصنيفًا واحدًا ثابتًا وتفضيلات متعدية، والتي تنهار عندما يختلف البشر أو تدور التفضيلات. تتجه الأبحاث نحو النماذج التي تلتقط توزيعات التفضيلات، والمكافآت متعددة الأبعاد (المساعدة، والسلامة، والصدق بشكل منفصل)، وأساليب مثل تعلم ناش من ردود الفعل البشرية التي تسقط افتراض النتيجة الواحدة. يقوم DPO وأشكاله المختلفة بشكل متزايد بدمج هدف برادلي-تيري مباشرة في التدريب على السياسات. توقع مخططات مقارنة أكثر ثراءً، بما في ذلك تصنيفات أكثر من عنصرين وتفضيلات مرجحة بالثقة، لتقليل اختراق المكافآت.

التنفيذ في العالم الحقيقي

تدريب نموذج المكافأة في RLHF الذي يصنف استجابتين لروبوتات الدردشة ويغذي الإشارة الأفضل والأسوأ لضبط PPO.

يقوم تحسين التفضيل المباشر بضبط النموذج مباشرة على أزواج الإجابات المختارة مقابل المرفوضة باستخدام فقدان السجل السيني لبرادلي-تيري.

ترتيب لاعبي الشطرنج أو الرياضات الإلكترونية عبر Elo، وهو رياضيًا قريب من نموذج برادلي-تيري فيما يتعلق بنتائج اللعبة.

إنشاء تصنيف لتوصيات المحتوى من خلال بيانات النقر "المستخدمون الذين يفضلون A على B" بدلاً من تقييمات النجوم المطلقة.

أنماط التنفيذ

نمذجة مكافأة برادلي-تيري في الممارسة العملية

تدريب نموذج المكافأة في RLHF الذي يصنف استجابتين لروبوتات الدردشة ويغذي الإشارة الأفضل والأسوأ لضبط PPO.

عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

نمذجة مكافأة برادلي-تيري في الممارسة العملية

يقوم تحسين التفضيل المباشر بضبط النموذج مباشرة على أزواج الإجابات المختارة مقابل المرفوضة باستخدام فقدان السجل السيني لبرادلي-تيري.

عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

نمذجة مكافأة برادلي-تيري في الممارسة العملية

ترتيب لاعبي الشطرنج أو الرياضات الإلكترونية عبر Elo، وهو رياضيًا قريب من نموذج برادلي-تيري فيما يتعلق بنتائج اللعبة.

عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

نمذجة مكافأة برادلي-تيري في الممارسة العملية

إنشاء تصنيف لتوصيات المحتوى من خلال بيانات النقر "المستخدمون الذين يفضلون A على B" بدلاً من تقييمات النجوم المطلقة.

عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

قد تستخدم الفرق المختلفة نفس المصطلح بشكل مختلف، لذا حدد النطاق مبكرًا.

!

يمكن أن تبدو المعايير قوية بينما يكون الأداء في العالم الحقيقي غير متساوٍ.

!

غالبًا ما يؤدي تجاهل جودة البيانات وخطط التقييم إلى نتائج هشة.

خارطة طريق التنفيذ

1

ابدأ بتعريف لغة واضحة للنتيجة التي تحتاجها.

تعامل مع هذا كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف الطرح مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

اختر مقياس نجاح واحد وحالة فشل واحدة قبل الاختبار.

تعامل مع هذا كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف الطرح مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

قم بتشغيل برنامج تجريبي صغير يحتوي على بيانات تمثيلية، وليس مجموعة تجريبية مصقولة.

تعامل مع هذا كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف الطرح مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

قم بتوثيق المجالات التي تساعد فيها نماذج مكافآت برادلي-تيري والأماكن الأبسط التي تكون فيها الطرق أفضل.

تعامل مع هذا كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف الطرح مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف

ما هو الذكاء الاصطناعي؟

احصل على المفاهيم الأساسية قبل الغوص بشكل أعمق.

قراءة الدليل

كيف يتعلم الذكاء الاصطناعي

فهم عملية التدريب وراء الأنظمة الحديثة.

قراءة الدليل

نموذج مكافأة برادلي تيري

نظرة عامة

الغوص العميق

البصيرة الفنية

إتقان نمذجة مكافأة برادلي تيري

التأثير الاستراتيجي

مستقبل نمذجة مكافأة برادلي تيري

التنفيذ في العالم الحقيقي

أنماط التنفيذ

نمذجة مكافأة برادلي-تيري في الممارسة العملية

نمذجة مكافأة برادلي-تيري في الممارسة العملية

نمذجة مكافأة برادلي-تيري في الممارسة العملية

نمذجة مكافأة برادلي-تيري في الممارسة العملية

المخاطر والدرابزين

خارطة طريق التنفيذ

استمر في الاستكشاف

ما هو الذكاء الاصطناعي؟

كيف يتعلم الذكاء الاصطناعي

Related guides