دليل اللغة AI

قوانين تحجيم شينشيلا

أظهرت قوانين قياس شينشيلا، من DeepMind في عام 2022، أن معظم نماذج اللغات الكبيرة كانت غير مدربة بشكل سيئ: بالنسبة لميزانية حسابية ثابتة، يجب عليك قياس حجم النموذج وبيانات التدريب بنسب متساوية تقريبًا.

نظرة عامة

أظهرت قوانين قياس شينشيلا، من DeepMind في عام 2022، أن معظم نماذج اللغات الكبيرة كانت غير مدربة بشكل سيئ: بالنسبة لميزانية حسابية ثابتة، يجب عليك قياس حجم النموذج وبيانات التدريب بنسب متساوية تقريبًا. إنه أمر مهم لأنه أعاد تعريف ما يعنيه حجم النموذج "الأمثل" وأعاد تشكيل كيفية إنفاق المعامل للحوسبة.

تعد قوانين Chinchilla Scaling Laws جزءًا من حزمة لغة الذكاء الاصطناعي المستخدمة لقراءة النص والكلام وإنشائه وتصنيفه وتحويله على نطاق واسع.

الغوص العميق

قبل شينشيلا، كان الاتجاه هو بناء نماذج أكبر من أي وقت مضى (مثل GPT-3 بمعلمة 175B) مع التدريب على كميات متواضعة نسبيًا من البيانات. قامت DeepMind بتدريب أكثر من 400 نموذج عبر العديد من الأحجام وميزانيات البيانات، ثم قامت بملاءمة المنحنيات التي تتنبأ بالخسارة كدالة للمعلمات والرموز ضمن ميزانية الحوسبة الثابتة (FLOP). النتيجة التي توصلوا إليها: يجب أن يتم قياس المعلمات ورموز التدريب معًا، تقريبًا بنسبة 1 إلى 1، مما يعني ضمنيًا حوالي 20 رمزًا من بيانات التدريب لكل معلمة. ولإثبات ذلك، قاموا بتدريب Chinchilla، وهو نموذج ذو معلمة 70B على 1.4 تريليون رمز، والذي تفوق في الأداء على Gopher الأكبر بكثير ذو المعلمة 280B على الرغم من استخدامه نفس الحوسبة، لأنه تم تدريبه على بيانات أكثر بكثير.

البصيرة الفنية

تأتي القوانين من ملاءمة دالة الخسارة البارامترية L(N, D) حيث N هي المعلمات وD هي الرموز المميزة، بما في ذلك مصطلحات الخسارة غير القابلة للاختزال وحجم النموذج وحجم البيانات. يؤدي تقليل الخسارة الخاضعة لقيود الحوسبة (الحوسبة متناسبة تقريبًا مع N مرات D) إلى نتيجة مفادها أن N وD الأمثل ينموان كقوة حوسبة ذات أسس مماثلة، وبالتالي تظل نسبة الحوسبة المثالية بالقرب من 20 رمزًا مميزًا لكل معلمة.

إتقان قوانين تحجيم شينشيلا

أظهرت قوانين قياس شينشيلا، من DeepMind في عام 2022، أن معظم نماذج اللغات الكبيرة كانت غير مدربة بشكل سيئ: بالنسبة لميزانية حسابية ثابتة، يجب عليك قياس حجم النموذج وبيانات التدريب بنسب متساوية تقريبًا. إنه أمر مهم لأنه أعاد تعريف ما يعنيه حجم النموذج "الأمثل" وأعاد تشكيل كيفية إنفاق المعامل للحوسبة. تعد قوانين Chinchilla Scaling Laws جزءًا من حزمة لغة الذكاء الاصطناعي المستخدمة لقراءة النص والكلام وإنشائه وتصنيفه وتحويله على نطاق واسع. لبناء فهم عميق، يجب التعامل مع قوانين قياس شينشيلا كنموذج تشغيلي، وليس كميزة واحدة: تحديد النتائج المرجوة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تقوم الفرق القوية التي تستخدم قوانين Chinchilla Scaling Laws بتصميم حلقات المطالبة والاسترجاع والمراجعة كنظام اتصال متكامل واحد. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي الوقت نفسه، يمكن للحقائق المهلوسة أن تدخل التقارير أو التدفقات الداعمة أو مخرجات البحث بهدوء. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق.

يمكن أن تتحرك مسارات عمل اللغة بشكل أسرع دون التضحية بالاتساق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

فهو يوسع الوصول عبر اللغات وأنماط الاتصال.

فهو يوسع الوصول عبر اللغات وأنماط الاتصال. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار.

يمكن للفرق قضاء المزيد من الوقت في الحكم بينما تتعامل الأتمتة مع التكرار. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل قوانين تحجيم شينشيلا

حولت شينشيلا المجال من مطاردة أعداد المعلمات إلى تغذية النماذج ببيانات عالية الجودة، وغالبًا ما تتدرب النماذج الحديثة بشكل جيد بعد نقطة "الحساب الأمثل" لجعل الاستدلال أرخص. مع ندرة نصوص الويب عالية الجودة، يتجه الاهتمام إلى تنظيم البيانات، والبيانات الاصطناعية، والعصور المتعددة، والبيانات متعددة الوسائط لمواصلة التوسع. ويستمر الدرس الأساسي: يجب أن تكون البيانات والمعلمات متوازنة، ولم يعد الحجم الأولي وحده هو الهدف.

التنفيذ في العالم الحقيقي

تتفوق Chinchilla ذات المعلمة 70B من DeepMind على 280B Gopher في المعايير باستخدام الحوسبة المتساوية، من خلال التدريب على المزيد من البيانات

توجيه الفرق لتخصيص ما يقرب من 20 رمزًا تدريبيًا لكل معلمة عند التخطيط لنموذج من البداية

تبرير النماذج الأصغر حجمًا والغنية بالبيانات مثل LLaMA والتي تكون أرخص في التشغيل في وقت الاستدلال

تقدير ما إذا كان النموذج المخطط "غير مدرب" وسيستفيد من البيانات الإضافية أكثر من المعلمات الإضافية

أنماط التنفيذ

قوانين تحجيم شينشيلا في الممارسة العملية

تتفوق Chinchilla ذات المعلمة 70B من DeepMind على 280B Gopher في المعايير باستخدام الحوسبة المتساوية، من خلال التدريب على المزيد من البيانات.

تتفوق Chinchilla ذات المعلمة 70B من DeepMind على 280B Gopher في المعايير باستخدام الحوسبة المتساوية، من خلال التدريب على المزيد من البيانات، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

قوانين تحجيم شينشيلا في الممارسة العملية

توجيه الفرق لتخصيص ما يقرب من 20 رمزًا تدريبيًا لكل معلمة عند التخطيط لنموذج من البداية.

توجيه الفرق لتخصيص ما يقرب من 20 رمزًا تدريبيًا لكل معلمة عند التخطيط لنموذج من الصفر، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

قوانين تحجيم شينشيلا في الممارسة العملية

تبرير النماذج الأصغر حجمًا والغنية بالبيانات مثل LLaMA والتي تكون أرخص في التشغيل في وقت الاستدلال.

تبرير النماذج الأصغر حجمًا والغنية بالبيانات مثل LLaMA التي تكون أرخص في التشغيل في وقت الاستدلال، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

قوانين تحجيم شينشيلا في الممارسة العملية

تقدير ما إذا كان النموذج المخطط "غير مدرب" وسيستفيد من البيانات الإضافية أكثر من المعلمات الإضافية.

تقدير ما إذا كان النموذج المخطط "غير مدرب جيدًا" وسيستفيد من البيانات الإضافية أكثر من المعلمات الإضافية عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

يمكن للحقائق المهلوسة إدخال التقارير أو تدفقات الدعم أو مخرجات البحث بهدوء.

!

يمكن أن تؤدي الحساسية السريعة إلى نتائج غير متناسقة عبر الطلبات المماثلة.

!

قد يتم كشف البيانات النصية الحساسة إذا كانت عناصر التحكم في الوصول ضعيفة.

خارطة طريق التنفيذ

1

حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل.

حدد تنسيق الإخراج والنغمة ومعايير الجودة قبل بدء التشغيل. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة.

استجابات أرضية من مصادر موثوقة عندما تكون الدقة مهمة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر.

احتفظ بنقطة تفتيش للمراجعة البشرية للمخرجات عالية المخاطر. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام.

تتبع أنماط الفشل وأعد تدريب المطالبات أو سير العمل بانتظام. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف