نظرة عامة
يعد نموذج برادلي-تيري طريقة إحصائية عمرها قرن من الزمان لتحويل المقارنات الزوجية (أ يدق ب) إلى درجات رقمية. في الذكاء الاصطناعي الحديث، يتم تشغيل نماذج المكافأة التي تتعلم التفضيلات البشرية من خلال "أي إجابة أفضل؟" التسميات، العمود الفقري لـ RLHF.
تقع نماذج مكافآت برادلي-تيري ضمن مجموعة أدوات الذكاء الاصطناعي الأساسية. عندما تفهمها، يصبح تقييم موضوعات الذكاء الاصطناعي الأخرى ومقارنتها أسهل.
الغوص العميق
يفترض برادلي تيري، الذي تم تقديمه في عام 1952، أن كل عنصر لديه درجة قوة مخفية، واحتمال أن يتفوق العنصر "أ" على العنصر "ب" هو الوظيفة اللوجستية لفارق درجاتهم. في محاذاة الذكاء الاصطناعي، يتم تعيين هذا بدقة على بيانات التفضيل: يرى واضعو العلامات البشرية استجابتين نموذجيتين ويختاران الأفضل، بدلاً من إعطاء تقييمات مطلقة يصعب معايرتها. يتم تدريب نموذج المكافأة، وهو عادةً نموذج اللغة ذو رأس الإخراج العددي، بحيث تحصل الاستجابة التي يفضلها البشر على مكافأة عددية أعلى. الخسارة هي الاحتمالية اللوغاريتمية السلبية لاحتمالية برادلي-تيري: تعظيم اللوغاريتم السيني لـ (مكافأة المختار ناقص مكافأة المرفوضة). يقوم نموذج المكافأة الناتج بعد ذلك بتسجيل مخرجات عشوائية، مما يوفر إشارة مفادها أن خوارزميات التعلم المعزز مثل PPO تعمل على تحسينها لجعل النماذج أكثر فائدة ومواءمة.
البصيرة الفنية
خسارة التدريب للمقارنة هي ببساطة ناقص اللوغاريتم السيني لـ (r_chosen − r_rejected)، وبالتالي فإن النموذج يتعلم فقط الاختلافات النسبية. وهذا يعني أنه لا يمكن تحديد المكافآت إلا من خلال ثابت إضافي؛ المقياس المطلق تعسفي. نظرًا لأن المقارنات أسهل وأكثر اتساقًا بالنسبة للبشر من نتائج من 1 إلى 10، فإن بيانات برادلي-تيري أقل تشويشًا. أظهر تحسين التفضيل المباشر لاحقًا أنه يمكنك تخطي نموذج المكافأة المنفصل وتحسين هدف برادلي-تيري مباشرة في السياسة.
إتقان نمذجة مكافأة برادلي تيري
يعد نموذج برادلي-تيري طريقة إحصائية عمرها قرن من الزمان لتحويل المقارنات الزوجية (أ يدق ب) إلى درجات رقمية. في الذكاء الاصطناعي الحديث، يتم تشغيل نماذج المكافأة التي تتعلم التفضيلات البشرية من خلال "أي إجابة أفضل؟" التسميات، العمود الفقري لـ RLHF. تقع نماذج مكافآت برادلي-تيري ضمن مجموعة أدوات الذكاء الاصطناعي الأساسية. عندما تفهمها، يصبح تقييم موضوعات الذكاء الاصطناعي الأخرى ومقارنتها أسهل. لبناء فهم عميق، تعامل مع نموذج مكافآت برادلي-تيري كنموذج تشغيلي، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.
من الناحية العملية، تقوم الفرق القوية التي تستخدم نماذج مكافآت برادلي-تيري ببناء نماذج مفاهيمية قوية أولاً، ثم تقوم بتعيين تلك النماذج لقيود الإنتاج الحقيقية. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.
يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق. وفي الوقت نفسه، قد تستخدم الفرق المختلفة نفس المصطلح بشكل مختلف، لذا حدد النطاق مبكرًا. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.
التأثير الاستراتيجي
يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق.
يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
يمكنك طرح أسئلة تنفيذ أفضل قبل إنفاق المال أو الوقت.
يمكنك طرح أسئلة تنفيذ أفضل قبل إنفاق المال أو الوقت. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
تتخذ الفرق ذات الفهم المشترك قرارات أفضل بشأن المنتجات والسياسات والتعلم.
تتخذ الفرق ذات الفهم المشترك قرارات أفضل بشأن المنتجات والسياسات والتعلم. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
التنفيذ في العالم الحقيقي
تدريب نموذج المكافأة في RLHF الذي يصنف استجابتين لروبوتات الدردشة ويغذي الإشارة الأفضل والأسوأ لضبط PPO.
يقوم تحسين التفضيل المباشر بضبط النموذج مباشرة على أزواج الإجابات المختارة مقابل المرفوضة باستخدام فقدان السجل السيني لبرادلي-تيري.
ترتيب لاعبي الشطرنج أو الرياضات الإلكترونية عبر Elo، وهو رياضيًا قريب من نموذج برادلي تيري فيما يتعلق بنتائج اللعبة.
إنشاء تصنيف لتوصيات المحتوى من خلال بيانات النقر "المستخدمون الذين يفضلون A على B" بدلاً من تقييمات النجوم المطلقة.
أنماط التنفيذ
نمذجة مكافأة برادلي-تيري في الممارسة العملية
تدريب نموذج المكافأة في RLHF الذي يصنف استجابتين لروبوتات الدردشة ويغذي الإشارة الأفضل والأسوأ لضبط PPO.
تدريب نموذج المكافأة في RLHF الذي يصنف استجابتين لروبوتات الدردشة ويغذي الإشارة الأفضل والأسوأ إلى PPO الضبط الدقيق. عادةً ما تحصل فرق الضبط على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الخطأ مع مرور الوقت.
نمذجة مكافأة برادلي-تيري في الممارسة العملية
يقوم تحسين التفضيل المباشر بضبط النموذج مباشرة على أزواج الإجابات المختارة مقابل المرفوضة باستخدام فقدان السجل السيني لبرادلي-تيري.
تحسين التفضيل المباشر - ضبط النموذج مباشرة على أزواج الإجابات المختارة مقابل المرفوضة باستخدام خسارة سجل برادلي-تيري السيني. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتبع كل من مكاسب الإنتاجية وتكاليف الخطأ بمرور الوقت.
نمذجة مكافأة برادلي-تيري في الممارسة العملية
ترتيب لاعبي الشطرنج أو الرياضات الإلكترونية عبر Elo، وهو رياضيًا قريب من نموذج برادلي تيري فيما يتعلق بنتائج اللعبة.
تصنيف لاعبي الشطرنج أو الرياضات الإلكترونية عبر Elo، وهو قريب من الناحية الرياضية لنموذج برادلي-تيري فيما يتعلق بنتائج اللعبة. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
نمذجة مكافأة برادلي-تيري في الممارسة العملية
إنشاء تصنيف لتوصيات المحتوى من خلال بيانات النقر "المستخدمون الذين يفضلون A على B" بدلاً من تقييمات النجوم المطلقة.
بناء تصنيف توصيات المحتوى من بيانات النقر "المستخدمون الذين يفضلون A على B" بدلاً من تقييمات النجوم المطلقة، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
المخاطر والدرابزين
قد تستخدم الفرق المختلفة نفس المصطلح بشكل مختلف، لذا حدد النطاق مبكرًا.
يمكن أن تبدو المعايير قوية بينما يكون الأداء في العالم الحقيقي غير متساوٍ.
غالبًا ما يؤدي تجاهل جودة البيانات وخطط التقييم إلى نتائج هشة.
خارطة طريق التنفيذ
ابدأ بتعريف لغة واضحة للنتيجة التي تحتاجها.
ابدأ بتعريف لغة واضحة للنتيجة التي تحتاجها. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
اختر مقياس نجاح واحد وحالة فشل واحدة قبل الاختبار.
اختر مقياس نجاح واحد وحالة فشل واحدة قبل الاختبار. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
قم بتشغيل برنامج تجريبي صغير يحتوي على بيانات تمثيلية، وليس مجموعة تجريبية مصقولة.
قم بتشغيل برنامج تجريبي صغير يحتوي على بيانات تمثيلية، وليس مجموعة تجريبية مصقولة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
قم بالتوثيق حيث تساعد نماذج مكافآت برادلي-تيري وأين تكون الطرق الأبسط أفضل.
قم بالتوثيق حيث تساعد نماذج مكافآت برادلي-تيري وأين تكون الطرق الأبسط أفضل. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.