دليل اللغة AI

أفضل أخذ العينات وإعادة الترتيب

يقوم أخذ العينات الأفضل من N بإنشاء العديد من الإجابات المرشحة من النموذج ثم يختار أفضلها باستخدام خطوة تسجيل منفصلة.

نظرة عامة

يقوم أخذ العينات الأفضل من N بإنشاء العديد من الإجابات المرشحة من النموذج ثم يختار أفضلها باستخدام خطوة تسجيل منفصلة. إنها واحدة من أبسط الطرق وأكثرها موثوقية لتداول الحوسبة الإضافية في وقت الاستدلال للحصول على جودة إجابة أعلى.

يعد أخذ العينات وإعادة الترتيب الأفضل من N جزءًا من مجموعة لغات الذكاء الاصطناعي المستخدمة لقراءة النص والكلام وإنشاءهما وتصنيفهما وتحويلهما على نطاق واسع.

الغوص العميق

يُنتج نموذج اللغة مع أخذ العينات مخرجات مختلفة في كل مرة تقوم بتشغيله. يستغل خيار Best-of-N هذا الأمر: حيث تقوم برسم عدد N من الإجابات المرشحة، ثم تعيد ترتيبها وتعيد الإجابة الأولى. يمكن أن يكون مُعاد الترتيب نموذجًا للمكافأة المستفادة (شائعًا في التعلم المعزز من ردود الفعل البشرية)، أو أداة تحقق تتحقق من الصحة، أو إرشادي بسيط مثل اتفاقية الإجابة عبر تصويت الأغلبية. نظرًا لأن النموذج يحتاج فقط إلى محاولة واحدة جيدة من بين العديد من المحاولات، غالبًا ما ترتفع الجودة بشكل حاد مع نمو N، خاصة في مهام الاستدلال والتعليمات البرمجية حيث يوجد مسار صحيح ولكنه لا يكون دائمًا العينة الأولى. التكلفة خطية في N، وتستقر المكاسب في نهاية المطاف أو حتى تنعكس إذا كان المسجل غير كامل، وهو وضع فشل يسمى اختراق المكافأة أو الإفراط في تحسين المكافأة.

البصيرة الفنية

جودة أفضل ما في N تتوقف بالكامل على المسجل. باستخدام أداة التحقق المثالية، تقترب الدقة من احتمال أن تكون عينة واحدة على الأقل من N صحيحة، والتي ترتفع بسرعة مع N. مع نموذج المكافأة الصاخب، يمكن خداع الاختيار: دفع N عاليًا جدًا يؤدي إلى تضخيم المخرجات التي تسجل درجات عالية ولكنها خاطئة بالفعل، نظرًا لأنك تقوم بالتحسين ضد النقاط العمياء للمسجل. وهذا هو السبب وراء أهمية نماذج المكافآت القوية والمعايرة لكي تستمر التقنية في تحقيق النتائج.

إتقان أفضل ما في أخذ العينات وإعادة الترتيب

يقوم أخذ العينات الأفضل من N بإنشاء العديد من الإجابات المرشحة من النموذج ثم يختار أفضلها باستخدام خطوة تسجيل منفصلة. إنها واحدة من أبسط الطرق وأكثرها موثوقية لتداول الحوسبة الإضافية في وقت الاستدلال للحصول على جودة إجابة أعلى. يعد أخذ العينات وإعادة الترتيب الأفضل من N جزءًا من مجموعة لغات الذكاء الاصطناعي المستخدمة لقراءة النص والكلام وإنشاءهما وتصنيفهما وتحويلهما على نطاق واسع. لبناء فهم عميق، تعامل مع أفضل ما في N لأخذ العينات وإعادة التصنيف كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تعمل الفرق القوية التي تستخدم تصميم Best-of-N لأخذ العينات وإعادة الترتيب على المطالبة بحلقات الاسترجاع والمراجعة كنظام اتصال متكامل واحد. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي الوقت نفسه، يمكن للحقائق المهلوسة أن تدخل التقارير أو التدفقات الداعمة أو مخرجات البحث بهدوء. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق.

يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

فهو يوسع الوصول عبر اللغات وأنماط الاتصال.

فهو يوسع الوصول عبر اللغات وأنماط الاتصال. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار.

يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل أفضل أخذ العينات وإعادة التصنيف

أصبح Best-of-N لبنة أساسية في قياس وقت الاستدلال، جنبًا إلى جنب مع سلسلة الأفكار والبحث الشجري. توقع متغيرات أكثر ذكاءً: التصويت بالأغلبية المرجحة، ونماذج مكافأة العمليات التي تسجل كل خطوة تفكير، والتكيف N الذي يتوقف عن أخذ العينات بمجرد ارتفاع الثقة. مع تحسن أدوات التحقق، خاصة بالنسبة للتعليمات البرمجية والرياضيات حيث يمكن التحقق من الصحة، ستكون إعادة ترتيب العديد من العينات طريقة قياسية لتحويل الحوسبة الاحتياطية إلى موثوقية دون إعادة تدريب النموذج الأساسي.

التنفيذ في العالم الحقيقي

أخذ عينات من 64 حلاً لمسألة رياضية واختيار الإجابة التي تتفق عليها معظم العينات (الاتساق الذاتي / تصويت الأغلبية).

إنشاء العديد من عمليات إكمال التعليمات البرمجية والاحتفاظ بالكود الذي يجتاز معظم اختبارات الوحدات كمدقق تلقائي.

رسم عدة استجابات في مسار RLHF واختيار الرد الحاصل على أعلى نقاط لنموذج المكافأة لعرضه على المستخدمين.

إنتاج العديد من مسودات الملخصات وإعادة ترتيبها بنموذج الجودة لتقديم الملخص الأكثر إخلاصًا وإيجازًا.

أنماط التنفيذ

أفضل أخذ العينات وإعادة الترتيب في الممارسة العملية

أخذ عينات من 64 حلاً لمسألة رياضية واختيار الإجابة التي تتفق عليها معظم العينات (الاتساق الذاتي / تصويت الأغلبية).

أخذ عينات من 64 حلاً لمشكلة رياضية واختيار الإجابة التي تتفق عليها معظم العينات (الاتساق الذاتي / تصويت الأغلبية) عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الخطأ مع مرور الوقت.

أفضل أخذ العينات وإعادة الترتيب في الممارسة العملية

إنشاء العديد من عمليات إكمال التعليمات البرمجية والاحتفاظ بالكود الذي يجتاز معظم اختبارات الوحدات كمدقق تلقائي.

إنشاء عمليات إكمال متعددة للتعليمات البرمجية والاحتفاظ بالكود الذي يجتاز معظم اختبارات الوحدات كأداة تحقق تلقائية، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

أفضل أخذ العينات وإعادة الترتيب في الممارسة العملية

رسم عدة استجابات في مسار RLHF واختيار الرد الحاصل على أعلى نقاط لنموذج المكافأة لعرضه على المستخدمين.

رسم العديد من الاستجابات في مسار RLHF واختيار الرد ذي أعلى نقاط لنموذج المكافأة لتقديمه إلى المستخدمين عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الخطأ مع مرور الوقت.

أفضل أخذ العينات وإعادة الترتيب في الممارسة العملية

إنتاج العديد من مسودات الملخصات وإعادة ترتيبها بنموذج الجودة لتقديم الملخص الأكثر إخلاصًا وإيجازًا.

إنتاج العديد من مسودات الملخصات وإعادة ترتيبها باستخدام نموذج جودة لإرجاع النموذج الأكثر إخلاصًا وإيجازًا، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

يمكن للحقائق المهلوسة إدخال التقارير أو تدفقات الدعم أو مخرجات البحث بهدوء.

!

يمكن أن تؤدي الحساسية السريعة إلى نتائج غير متناسقة عبر الطلبات المماثلة.

!

قد يتم كشف البيانات النصية الحساسة إذا كانت عناصر التحكم في الوصول ضعيفة.

خارطة طريق التنفيذ

1

حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل.

حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة.

استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر.

احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام.

تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف