دليل اللغة AI

رفض أخذ العينات صقل

يؤدي الضبط الدقيق لأخذ عينات الرفض (RFT) إلى إنشاء العديد من إجابات المرشحين، ويحتفظ فقط بالإجابات التي حصلت على أفضل الدرجات، ويعيد تدريب النموذج على هؤلاء الفائزين.

نظرة عامة

يؤدي الضبط الدقيق لأخذ عينات الرفض (RFT) إلى إنشاء العديد من إجابات المرشحين، ويحتفظ فقط بالإجابات التي حصلت على أفضل الدرجات، ويعيد تدريب النموذج على هؤلاء الفائزين. إنه أمر مهم لأنه يقدم الكثير من فوائد RLHF باستخدام التعلم المباشر الخاضع للإشراف بدلاً من التعلم المعزز المعقد.

يعد الضبط الدقيق لأخذ عينات الرفض جزءًا من مجموعة لغات الذكاء الاصطناعي المستخدمة لقراءة النص والكلام وإنشائهما وتصنيفهما وتحويلهما على نطاق واسع.

الغوص العميق

يُعد الضبط الدقيق لأخذ عينات الرفض، والذي يطلق عليه أحيانًا الضبط الأفضل من بين N، مكونًا رئيسيًا في كيفية محاذاة نماذج مثل Llama 2 وLlama 3 من Meta. الوصفة بسيطة: لكل مطالبة، قم بعينة عدة استجابات (على سبيل المثال، 4 إلى 64) من النموذج الحالي، وسجل كل منها باستخدام نموذج مكافأة أو مدقق تلقائي، ثم تجاهل ("ارفض") جميع المخرجات باستثناء المخرجات ذات التصنيف الأعلى. تصبح العينات عالية الجودة الباقية مجموعة بيانات دقيقة جديدة خاضعة للإشراف، ويتم تدريب النموذج عليها مع فقدان الرمز المميز التالي. يؤدي تكرار هذه الحلقة بشكل متكرر إلى دفع النموذج نحو توليد إجابات أفضل من تلقاء نفسه. نظرًا لأن النموذج يتعلم من مخرجاته التي تمت تصفيتها، فإن RFT يتجنب عدم الاستقرار وضبط الصداع الخاص بتدرج السياسة RL مع الاستمرار في الاستفادة من إشارة المكافأة.

البصيرة الفنية

يستغل RFT حقيقة أن أخذ العينات عدة مرات والحفاظ على الاستجابة القصوى للمكافأة يقترب من الانتقاء من توزيع أكثر وضوحًا وأعلى جودة. إن التدريب على هؤلاء الفائزين من خلال الإنتروبيا القياسية يؤدي إلى تقطير أفضل سلوك من بين N إلى مخرجات العينة الفردية للنموذج. بالنسبة للمجالات التي يمكن التحقق منها مثل الرياضيات أو التعليمات البرمجية، يمكن أن تكون "المكافأة" ببساطة ما إذا كانت الإجابة النهائية أو اختبار الوحدة قد نجح، مما يلغي الحاجة إلى نموذج مكافأة مكتسب بالكامل.

إتقان الضبط الدقيق لأخذ عينات الرفض

يؤدي الضبط الدقيق لأخذ عينات الرفض (RFT) إلى إنشاء العديد من إجابات المرشحين، ويحتفظ فقط بالإجابات التي حصلت على أفضل الدرجات، ويعيد تدريب النموذج على هؤلاء الفائزين. إنه أمر مهم لأنه يقدم الكثير من فوائد RLHF باستخدام التعلم المباشر الخاضع للإشراف بدلاً من التعلم المعزز المعقد. يعد الضبط الدقيق لأخذ عينات الرفض جزءًا من مجموعة لغات الذكاء الاصطناعي المستخدمة لقراءة النص والكلام وإنشائهما وتصنيفهما وتحويلهما على نطاق واسع. لبناء فهم عميق، يجب التعامل مع الضبط الدقيق لأخذ عينات الرفض كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تعمل الفرق القوية التي تستخدم تصميم الضبط الدقيق لأخذ عينات الرفض على المطالبة بحلقات الاسترجاع والمراجعة كنظام اتصال متكامل واحد. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي الوقت نفسه، يمكن للحقائق المهلوسة أن تدخل التقارير أو التدفقات الداعمة أو مخرجات البحث بهدوء. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق.

يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

فهو يوسع الوصول عبر اللغات وأنماط الاتصال.

فهو يوسع الوصول عبر اللغات وأنماط الاتصال. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار.

يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل الضبط الدقيق لأخذ عينات الرفض

يعد RFT أمرًا أساسيًا في مرحلة ما بعد التدريب الحديثة، وغالبًا ما يستخدم قبل أو بجانب أساليب RL مثل PPO وDPO. وتزداد جاذبيتها مع الاستدلال الرخيص وأدوات التحقق التلقائية القوية: مع تحسن النماذج في التوليد الذاتي والتحقق الذاتي، تدعم عينات الرفض المتكررة البيانات الاصطناعية وحلقات التحسين الذاتي. توقع تكاملًا أكثر إحكامًا مع نماذج الاستدلال التي تنتج سلاسل فكرية يمكن التحقق منها، ودراسة مستمرة لكيفية تجنب اختراق المكافآت وانهيار التنوع عند التدريب المتكرر على مخرجات النموذج نفسه.

التنفيذ في العالم الحقيقي

محاذاة نماذج نمط اللاما عن طريق أخذ عينات من الإجابات المتعددة لكل موجه، والحفاظ على أعلى درجات نموذج المكافأة، ثم SFT على تلك الإجابات

تحسين حل الرياضيات من خلال إنشاء العديد من الحلول والاحتفاظ فقط بتلك التي تصل إلى الإجابة الصحيحة والقابلة للتحقق

إنشاء التعليمات البرمجية حيث يتم الاحتفاظ بالمرشحين فقط في حالة اجتيازهم اختبارات الوحدة، ثم يتم استخدامها كبيانات تدريب

بناء مجموعات بيانات تعليمات تركيبية عن طريق تصفية أفضل الاستجابات الذاتية للنموذج لجولة التدريب التالية

أنماط التنفيذ

الضبط الدقيق لأخذ عينات الرفض في الممارسة العملية

محاذاة نماذج نمط اللاما عن طريق أخذ عينات من الإجابات المتعددة لكل موجه، والحفاظ على أعلى درجات نموذج المكافأة، ثم SFT عليها.

من خلال محاذاة نماذج نمط اللاما عن طريق أخذ عينات من الإجابات المتعددة لكل موجه، والحفاظ على أعلى درجات نموذج المكافأة، فإن SFT في تلك الفرق عادةً ما تحصل على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتبع كل من مكاسب الإنتاجية وتكاليف الخطأ بمرور الوقت.

الضبط الدقيق لأخذ عينات الرفض في الممارسة العملية

تحسين حل الرياضيات من خلال إنشاء العديد من الحلول والاحتفاظ فقط بتلك التي تصل إلى الإجابة الصحيحة والقابلة للتحقق.

تحسين حل الرياضيات من خلال إنشاء العديد من الحلول والاحتفاظ فقط بتلك التي تصل إلى الإجابة الصحيحة والقابلة للتحقق، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

الضبط الدقيق لأخذ عينات الرفض في الممارسة العملية

إنشاء التعليمات البرمجية حيث يتم الاحتفاظ بالمرشحين فقط في حالة اجتيازهم اختبارات الوحدة، ثم يتم استخدامها كبيانات تدريب.

إنشاء التعليمات البرمجية حيث يتم الاحتفاظ بالمرشحين فقط إذا اجتازوا اختبارات الوحدة، ثم يتم استخدامها كبيانات تدريب، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

الضبط الدقيق لأخذ عينات الرفض في الممارسة العملية

بناء مجموعات بيانات تعليمات تركيبية عن طريق تصفية أفضل الاستجابات الذاتية للنموذج لجولة التدريب التالية.

بناء مجموعات بيانات تعليمات تركيبية عن طريق تصفية أفضل الاستجابات التي تم إنشاؤها ذاتيًا للنموذج لجولة التدريب التالية، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

يمكن للحقائق المهلوسة إدخال التقارير أو تدفقات الدعم أو مخرجات البحث بهدوء.

!

يمكن أن تؤدي الحساسية السريعة إلى نتائج غير متناسقة عبر الطلبات المماثلة.

!

قد يتم كشف البيانات النصية الحساسة إذا كانت عناصر التحكم في الوصول ضعيفة.

خارطة طريق التنفيذ

1

حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل.

حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة.

استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر.

احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام.

تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف