دليل اللغة AI

تحسين التفضيل المباشر

يعد تحسين التفضيل المباشر (DPO) وسيلة لمواءمة نماذج اللغة مع التفضيلات البشرية دون تدريب نموذج مكافأة منفصل أو تشغيل التعلم المعزز.

نظرة عامة

يعد تحسين التفضيل المباشر جزءًا من حزمة اللغة AI المستخدمة لقراءة وإنشاء وتصنيف وتحويل النص والكلام على نطاق واسع.

الغوص العميق

يعيد DPO، الذي قدمه رافايلوف وزملاؤه في جامعة ستانفورد في عام 2023، التفكير في كيفية تعليم النموذج الذي يفضله الناس. يقوم النهج التقليدي (RLHF) بتدريب نموذج المكافأة على المقارنات البشرية، ثم يستخدم التعلم المعزز لتعظيم تلك المكافأة. الرؤية الرئيسية لـ DPO هي رياضية: السياسة المثلى في إطار هدف RLHF هذا لها علاقة مغلقة بالمكافأة، بحيث يمكنك إعادة ترتيب المعادلات وتحسين نموذج اللغة مباشرة على أزواج التفضيلات. أنت تعطيه استجابة سريعة، واستجابة "مختارة" (مفضلة)، واستجابة "مرفوضة"، وخسارة بسيطة في نمط التصنيف تدفع النموذج إلى جعل الإجابة المختارة أكثر احتمالا نسبيا. لا يوجد نموذج للمكافأة، ولا حلقة لأخذ العينات، ولا يوجد اختراق للمكافأة. إنه أبسط بكثير وأكثر استقرارًا في التشغيل.

البصيرة الفنية

يستخدم DPO خسارة الإنتروبيا الثنائية على أزواج التفضيل. فهو يزيد من نسبة احتمالية السجل للاستجابة المختارة مقارنة بالإجابة المرفوضة، ويتم قياس كل منها مقابل نموذج مرجعي مجمد (عادةً ما تكون نقطة البداية المضبوطة تحت الإشراف). تتحكم بيتا لمعلمة درجة الحرارة في المدى الذي قد تنحرف به السياسة عن هذا المرجع، مما يفرض ضمنيًا قيد KL الذي يطبقه RLHF بشكل صريح. المكافأة لا تتحقق أبدا. إنه ضمني في احتمالات السجل الخاصة بالسياسة.

إتقان تحسين التفضيل المباشر

يعد تحسين التفضيل المباشر (DPO) وسيلة لمواءمة نماذج اللغة مع التفضيلات البشرية دون تدريب نموذج مكافأة منفصل أو تشغيل التعلم المعزز. إنه ينهار خط أنابيب معقد متعدد المراحل في خسارة تدريب واحدة ومستقرة. يعد Direct Preference Optimization جزءًا من حزمة لغة الذكاء الاصطناعي المستخدمة لقراءة النص والكلام وإنشائه وتصنيفه وتحويله على نطاق واسع. لبناء فهم عميق، يجب التعامل مع تحسين التفضيل المباشر كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تستخدم الفرق القوية تصميم التفضيل المباشر للمطالبات والاسترجاع والمراجعة كنظام اتصال متكامل واحد. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي الوقت نفسه، يمكن للحقائق المهلوسة أن تدخل التقارير أو التدفقات الداعمة أو مخرجات البحث بهدوء. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق.

يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

فهو يوسع الوصول عبر اللغات وأنماط الاتصال.

فهو يوسع الوصول عبر اللغات وأنماط الاتصال. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار.

يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل تحسين التفضيل المباشر

أصبحت DPO طريقة محاذاة افتراضية لأنها رخيصة الثمن وقابلة للتكرار، وقد أنتجت مجموعة من المتغيرات: يعمل IPO على إصلاح التراكب على التفضيلات شبه الحتمية، ويتعلم KTO من الملصقات الفردية الجيدة أو السيئة بدلاً من الأزواج، ويقوم ORPO بطي تعلم التفضيلات إلى ضبط دقيق بدون نموذج مرجعي. توقع استمرار العمل على الجمع بين DPO والبيانات المتعلقة بالسياسة وتقليل انحياز الطول/الجودة، وتضييق الفجوة المتبقية مع RLHF الكامل عبر الإنترنت.

التنفيذ في العالم الحقيقي

ضبط نماذج الدردشة ذات الوزن المفتوح مثل Zephyr والعديد من مشتقات Llama وMistral، والتي تمت مواءمتها مع DPO في مجموعات البيانات المفضلة

تقليل النتائج الضارة أو غير المفيدة باستخدام أزواج حيث يتم "اختيار" الإجابة الآمنة والمفيدة على الإجابة الإشكالية

تعليم مساعد الترميز لتفضيل الحلول الصحيحة والموثقة جيدًا على الحلول التي تجرها الدواب باستخدام مقارنات مصنفة من قبل المطورين

ضبط أسلوب التلخيص بحيث تفضل النماذج الملخصات المختصرة والصادقة على الملخصات المطولة أو المهلوسة

أنماط التنفيذ

تحسين التفضيل المباشر في الممارسة العملية

ضبط نماذج الدردشة ذات الوزن المفتوح مثل Zephyr والعديد من مشتقات Llama وMistral، والتي تمت مواءمتها مع DPO في مجموعات البيانات المفضلة.

ضبط نماذج الدردشة ذات الوزن المفتوح مثل Zephyr والعديد من مشتقات Llama وMistral، والتي تمت مواءمتها مع DPO في مجموعات البيانات التفضيلية، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

تحسين التفضيل المباشر في الممارسة العملية

تقليل المخرجات الضارة أو غير المفيدة باستخدام أزواج حيث يتم "اختيار" الإجابة الآمنة والمفيدة على الإجابة الإشكالية.

تقليل المخرجات الضارة أو غير المفيدة باستخدام أزواج حيث يتم "اختيار" الإجابة الآمنة والمفيدة على الإجابة الإشكالية. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

تحسين التفضيل المباشر في الممارسة العملية

تعليم مساعد الترميز لتفضيل الحلول الصحيحة والموثقة جيدًا على الحلول التي تجرها الدواب باستخدام مقارنات مصنفة من قبل المطورين.

تعليم مساعد البرمجة لتفضيل الحلول الصحيحة والموثقة جيدًا على الحلول التي بها أخطاء باستخدام مقارنات مصنفة من قبل المطورين عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

تحسين التفضيل المباشر في الممارسة العملية

ضبط أسلوب التلخيص بحيث تفضل النماذج الملخصات المختصرة والصادقة على الملخصات المطولة أو المهلوسة.

ضبط أسلوب التلخيص بحيث تفضل النماذج الملخصات المختصرة والصادقة على الملخصات المطولة أو المهووسة. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

يمكن للحقائق المهلوسة إدخال التقارير أو تدفقات الدعم أو مخرجات البحث بهدوء.

يمكن أن تؤدي الحساسية السريعة إلى نتائج غير متناسقة عبر الطلبات المماثلة.

قد يتم كشف البيانات النصية الحساسة إذا كانت عناصر التحكم في الوصول ضعيفة.

خارطة طريق التنفيذ

حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل.

حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة.

استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر.

احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام.

تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف

ChatGPT و ماجستير إدارة الأعمال

انظر كيف تولد نماذج اللغة الحديثة وتعقلها.

قراءة الدليل

أساسيات البرمجة اللغوية العصبية

تعلم أساسيات معالجة اللغة وراء هذه الأدوات.

قراءة الدليل