دليل الأساسيات

تطبيع الطول في تحسين التفضيلات

تعمل تسوية الطول على ضبط أهداف ضبط التفضيلات بحيث تتوقف النماذج عن الحصول على الموافقة بمجرد كتابة إجابات أطول.

نظرة عامة

تعمل تسوية الطول على ضبط أهداف ضبط التفضيلات بحيث تتوقف النماذج عن الحصول على الموافقة بمجرد كتابة إجابات أطول. وهذا مهم لأن إشارات المكافأة غير المصححة تدفع روبوتات الدردشة نحو استجابات مطولة ومبطنة بدلاً من استجابات أفضل حقًا.

تطبيع الطول في تحسين التفضيلات موجود في مجموعة أدوات الذكاء الاصطناعي الأساسية. عندما تفهمها، يصبح تقييم موضوعات الذكاء الاصطناعي الأخرى ومقارنتها أسهل.

الغوص العميق

عندما تتماشى النماذج مع أساليب مثل RLHF أو DPO، فإنها تتعلم من المقارنات التي يختار فيها البشر (أو نموذج المكافأة) "الأفضل" من إجابتين. الخطأ المستمر هو أن الإجابات الأطول تميل إلى أن تكون مفضلة حتى عندما لا تكون أفضل في الواقع، لذلك يتعلم النموذج الاختصار: كن كثير الكلام. تطبيع الطول يتعارض مع هذا. في DPO، تكون المكافأة الضمنية عبارة عن مجموع فروق احتمالية السجل لكل رمز، والتي تنمو تلقائيًا مع الطول. تقوم المتغيرات مثل DPO وSimPO المقيسة للطول بتقسيم تلك المكافأة على عدد الرموز المميزة، ويتم التسجيل على متوسط ​​لكل رمز مميز بدلاً من ذلك. والنتيجة هي نماذج تظل موجزة ومباشرة بدلاً من تضخيم الاستجابات لتحقيق الهدف.

البصيرة الفنية

المكافأة الضمنية لـ DPO هي نسبة السجل بين السياسات المضبوطة والمرجعية، ويتم جمعها على كل رمز مميز في الاستجابة. نظرًا لأن كل رمز مميز يضيف مصطلحًا آخر (إيجابيًا عادةً)، فإن المكافأة الأولية تتدرج مع طول التسلسل، مما يؤدي إلى انحياز التحسين نحو عمليات إكمال أطول. يقوم SimPO بإسقاط النموذج المرجعي ويستخدم متوسط ​​احتمالية السجل لكل رمز كمكافأة، بالإضافة إلى هامش المكافأة المستهدف. يؤدي القسمة على الطول إلى إزالة ميزة الطول الميكانيكي، لذا فإن تدرجات التفضيل تعكس الجودة بدلاً من عدد الكلمات.

إتقان تطبيع الطول في تحسين التفضيلات

تعمل تسوية الطول على ضبط أهداف ضبط التفضيلات بحيث تتوقف النماذج عن الحصول على الموافقة بمجرد كتابة إجابات أطول. وهذا مهم لأن إشارات المكافأة غير المصححة تدفع روبوتات الدردشة نحو استجابات مطولة ومبطنة بدلاً من استجابات أفضل حقًا. تطبيع الطول في تحسين التفضيلات موجود في مجموعة أدوات الذكاء الاصطناعي الأساسية. عندما تفهمها، يصبح تقييم موضوعات الذكاء الاصطناعي الأخرى ومقارنتها أسهل. لبناء فهم عميق، تعامل مع تسوية الطول في تحسين التفضيلات كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تقوم الفرق القوية التي تستخدم تسوية الطول في تحسين التفضيلات ببناء نماذج مفاهيمية قوية أولاً، ثم تعيين تلك النماذج لقيود الإنتاج الحقيقية. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق. وفي الوقت نفسه، قد تستخدم الفرق المختلفة نفس المصطلح بشكل مختلف، لذا حدد النطاق مبكرًا. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق.

يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكنك طرح أسئلة تنفيذ أفضل قبل إنفاق المال أو الوقت.

يمكنك طرح أسئلة تنفيذ أفضل قبل إنفاق المال أو الوقت. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

تتخذ الفرق ذات الفهم المشترك قرارات أفضل بشأن المنتجات والسياسات والتعلم.

تتخذ الفرق ذات الفهم المشترك قرارات أفضل بشأن المنتجات والسياسات والتعلم. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل تطبيع الطول في تحسين التفضيلات

توقع أن يصبح التحكم في الطول مقبضًا قياسيًا وليس فكرة لاحقة. يجمع الباحثون بين تطبيع الطول وعقوبات الطول الصريحة، والمكافآت المشروطة بالطول، ومجموعات التقييم التي تحافظ على ثبات طول الإجابة لقياس مكاسب الجودة الحقيقية. مع تحسن نماذج المكافأة في اكتشاف انحياز الإسهاب، من المحتمل أن تبلغ خطوط أنابيب المحاذاة عن معدلات فوز متحيزة للطول افتراضيًا، وسيكتسب المستخدمون تحكمًا أفضل في مدى دقة إجابات النموذج أو تفصيلها.

التنفيذ في العالم الحقيقي

ضبط مساعد دعم العملاء باستخدام SimPO بحيث يقدم ردودًا واضحة ودقيقة بدلاً من الفقرات المبطنة التي تبدو شاملة فقط.

الإبلاغ عن "معدل الفوز الذي يتم التحكم فيه بالطول" على AlpacaEval 2 لإظهار نموذج محسّن حقًا بدلاً من أن يصبح أكثر ثرثرة.

إضافة تطبيع الطول إلى DPO عند ضبط نموذج الترميز بحيث يُرجع الحد الأدنى من المقتطفات الصحيحة، وليس النموذج النمطي المتضخم.

تشخيص نموذج المكافأة الذي يسجل درجات أعلى للمقالات الأطول بشكل منهجي، ثم تقليل انحيازه قبل استخدامه لمواءمة مساعد الكتابة.

أنماط التنفيذ

تطبيع الطول في تحسين التفضيلات في الممارسة العملية

ضبط مساعد دعم العملاء باستخدام SimPO بحيث يقدم ردودًا واضحة ودقيقة بدلاً من الفقرات المبطنة التي تبدو شاملة فقط.

ضبط مساعد دعم العملاء باستخدام SimPO بحيث يقدم ردودًا واضحة ودقيقة بدلاً من الفقرات المبطنة التي تبدو شاملة فقط. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

تطبيع الطول في تحسين التفضيلات في الممارسة العملية

الإبلاغ عن "معدل الفوز الذي يتم التحكم فيه بالطول" على AlpacaEval 2 لإظهار نموذج محسّن حقًا بدلاً من أن يصبح أكثر ثرثرة.

الإبلاغ عن "معدل الفوز الذي يتم التحكم فيه بالطول" على AlpacaEval 2 لإظهار نموذج محسّن حقًا بدلاً من أن يصبح أكثر ثرثرة فقط. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

تطبيع الطول في تحسين التفضيلات في الممارسة العملية

إضافة تطبيع الطول إلى DPO عند ضبط نموذج الترميز بحيث يُرجع الحد الأدنى من المقتطفات الصحيحة، وليس النموذج النمطي المتضخم.

إضافة تطبيع الطول إلى DPO عند ضبط نموذج الترميز بحيث يُرجع الحد الأدنى من المقتطفات الصحيحة، وليس النموذج النمطي المتضخم، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

تطبيع الطول في تحسين التفضيلات في الممارسة العملية

تشخيص نموذج المكافأة الذي يسجل درجات أعلى للمقالات الأطول بشكل منهجي، ثم تقليل انحيازه قبل استخدامه لمواءمة مساعد الكتابة.

تشخيص نموذج المكافأة الذي يسجل مقالات أطول بشكل منهجي أعلى، ثم تقليل انحيازه قبل استخدامه لمواءمة مساعد الكتابة، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الخطأ مع مرور الوقت.

المخاطر والدرابزين

!

قد تستخدم الفرق المختلفة نفس المصطلح بشكل مختلف، لذا حدد النطاق مبكرًا.

!

يمكن أن تبدو المعايير قوية بينما يكون الأداء في العالم الحقيقي غير متساوٍ.

!

غالبًا ما يؤدي تجاهل جودة البيانات وخطط التقييم إلى نتائج هشة.

خارطة طريق التنفيذ

1

ابدأ بتعريف لغة واضحة للنتيجة التي تحتاجها.

ابدأ بتعريف لغة واضحة للنتيجة التي تحتاجها. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

اختر مقياس نجاح واحد وحالة فشل واحدة قبل الاختبار.

اختر مقياس نجاح واحد وحالة فشل واحدة قبل الاختبار. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

قم بتشغيل برنامج تجريبي صغير يحتوي على بيانات تمثيلية، وليس مجموعة تجريبية مصقولة.

قم بتشغيل برنامج تجريبي صغير يحتوي على بيانات تمثيلية، وليس مجموعة تجريبية مصقولة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

قم بالتوثيق حيث تساعد تسوية الطول في تحسين التفضيلات وحيث تكون الطرق الأبسط أفضل.

قم بالتوثيق حيث تساعد تسوية الطول في تحسين التفضيلات وحيث تكون الطرق الأبسط أفضل. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف