دليل الأساسيات

شينشيلا حساب التدريب الأمثل

Chinchilla هي إحدى النتائج التي توصلت إليها DeepMind في عام 2022 والتي تفيد بأن معظم نماذج اللغات الكبيرة لم يتم تدريبها بشكل جيد: بالنسبة لميزانية الحوسبة الثابتة، يجب عليك قياس المعلمات والبيانات بشكل متساوٍ تقريبًا، وليس فقط بناء نموذج أكبر.

نظرة عامة

Chinchilla هي إحدى النتائج التي توصلت إليها DeepMind في عام 2022 والتي تفيد بأن معظم نماذج اللغات الكبيرة لم يتم تدريبها بشكل جيد: بالنسبة لميزانية الحوسبة الثابتة، يجب عليك قياس المعلمات والبيانات بشكل متساوٍ تقريبًا، وليس فقط بناء نموذج أكبر. لقد أعاد تشكيل كيفية موازنة الصناعة بين حجم النموذج وبيانات التدريب.

يوجد تدريب Chinchilla Compute-Optimal في مجموعة أدوات الذكاء الاصطناعي الأساسية. عندما تفهمها، يصبح تقييم موضوعات الذكاء الاصطناعي الأخرى ومقارنتها أسهل.

الغوص العميق

قامت ورقة Chinchilla التي أعدتها شركة DeepMind بإعادة النظر في القياس وتدريب أكثر من 400 نموذج للعثور على التوازن الحسابي الأمثل. القاعدة الأساسية: يجب أن ينمو حجم النموذج ورموز التدريب بشكل متواصل، أي ما يقرب من 20 رمزًا تدريبيًا لكل معلمة. ولإثبات ذلك، قاموا بتدريب Chinchilla، وهو نموذج مكون من 70 مليار معلمة على 1.4 تريليون رمز، باستخدام نفس الحوسبة التي قام بها Gopher الذي يحتوي على 280 مليار معلمة والتي تم تدريبها على عدد أقل بكثير من الرموز. شينشيلا، على الرغم من كونها أصغر بأربع مرات، تفوقت على Gopher وGPT-3 وغيرهم من العمالقة في كل المعايير تقريبًا. لقد أبطل الدرس الاستنتاج السابق OpenAI الذي كان يفضل الحجم على البيانات، موضحًا أن العديد من النماذج الرئيسية كانت تترك الأداء على الطاولة بسبب كونها كبيرة جدًا وتفتقر إلى البيانات.

البصيرة الفنية

خسارة تناسب شينشيلا مثل L(N,D) = E + A·N^(-α) + B·D^(-β)، مع α وβ بالقرب من 0.34، مما يعني أن المعلمات والبيانات تساهم بشكل متماثل تقريبًا. يؤدي تحسين ذلك في ظل قيد حساب ثابت (حساب ≈ 6·N·D للمحولات) إلى الحصول على نتيجة متساوية القياس. إن النموذج الأصغر حجمًا والغني بالبيانات هو أيضًا أرخص في تشغيله عند الاستدلال، لذا فإن ميزته تتضاعف في النشر، وليس فقط في التدريب.

إتقان تدريب شينشيلا على الحساب الأمثل

Chinchilla هي إحدى النتائج التي توصلت إليها DeepMind في عام 2022 والتي تفيد بأن معظم نماذج اللغات الكبيرة لم يتم تدريبها بشكل جيد: بالنسبة لميزانية الحوسبة الثابتة، يجب عليك قياس المعلمات والبيانات بشكل متساوٍ تقريبًا، وليس فقط بناء نموذج أكبر. لقد أعاد تشكيل كيفية موازنة الصناعة بين حجم النموذج وبيانات التدريب. يوجد تدريب Chinchilla Compute-Optimal في مجموعة أدوات الذكاء الاصطناعي الأساسية. عندما تفهمها، يصبح تقييم موضوعات الذكاء الاصطناعي الأخرى ومقارنتها أسهل. لبناء فهم عميق، تعامل مع Chinchilla Compute-Optimal Training كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تقوم الفرق القوية التي تستخدم تدريب Chinchilla Compute-Optimal Training ببناء نماذج مفاهيمية قوية أولاً، ثم تعيين تلك النماذج لقيود الإنتاج الحقيقية. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق. وفي الوقت نفسه، قد تستخدم الفرق المختلفة نفس المصطلح بشكل مختلف، لذا حدد النطاق مبكرًا. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق.

يساعدك على فصل المطالبات الفنية الواضحة عن لغة التسويق. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يمكنك طرح أسئلة تنفيذ أفضل قبل إنفاق المال أو الوقت.

يمكنك طرح أسئلة تنفيذ أفضل قبل إنفاق المال أو الوقت. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

تتخذ الفرق ذات الفهم المشترك قرارات أفضل بشأن المنتجات والسياسات والتعلم.

تتخذ الفرق ذات الفهم المشترك قرارات أفضل بشأن المنتجات والسياسات والتعلم. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل تدريب شينشيلا على الحوسبة الأمثل

تتخطى النماذج الحديثة مثل Llama 3 عمدًا نسبة 20 رمزًا لكل معلمة في Chinchilla، حيث تقوم بتدريب النماذج الصغيرة على تريليونات من الرموز المميزة لجعل الاستدلال رخيصًا، وقبول حسابات التدريب دون المستوى الأمثل. ومع تزايد ندرة البيانات الجيدة، يتزايد الاهتمام بالعصور المتكررة، والبيانات الاصطناعية، وتصفية الجودة. وتظل شينشيلا هي النقطة المرجعية، ولكن الأمثل يعتمد بشكل متزايد على تكلفة الاستدلال مدى الحياة، وليس فقط ميزانية التدريب لمرة واحدة.

التنفيذ في العالم الحقيقي

اختيار تدريب نموذج مكون من 7 مليارات معلمة على 2 تريليون رمز بدلاً من نموذج مكون من 30 مليارًا على بيانات قليلة جدًا لنفس الميزانية.

تقدير أن نموذجًا مكونًا من 10 مليارات معلمة يحتاج إلى ما يقرب من 200 مليار رمز للوصول إلى النقطة المثالية للحوسبة.

تبرير نموذج منشور أصغر لخفض تكاليف الاستدلال لكل استعلام مع مطابقة جودة منافس أكبر.

مراجعة النموذج الحالي واستنتاج أنه لم يتم تدريبه جيدًا، ثم التخطيط لعملية تدريب أطول بدلاً من زيادة المعلمات.

أنماط التنفيذ

تدريب شينشيلا على الحساب الأمثل في الممارسة العملية

اختيار تدريب نموذج مكون من 7 مليارات معلمة على 2 تريليون رمز بدلاً من نموذج مكون من 30 مليارًا على بيانات قليلة جدًا لنفس الميزانية.

اختيار تدريب نموذج مكون من 7 مليارات معلمة على 2 تريليون رمز بدلاً من نموذج 30 مليار على بيانات قليلة جدًا لنفس الميزانية، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الخطأ مع مرور الوقت.

تدريب شينشيلا على الحساب الأمثل في الممارسة العملية

تقدير أن نموذجًا مكونًا من 10 مليارات معلمة يحتاج إلى ما يقرب من 200 مليار رمز للوصول إلى النقطة المثالية للحوسبة.

تقديرًا أن نموذجًا مكونًا من 10 مليارات معلمة يحتاج إلى ما يقرب من 200 مليار رمز مميز للوصول إلى النقطة المثالية للحوسبة، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

تدريب شينشيلا على الحساب الأمثل في الممارسة العملية

تبرير نموذج منشور أصغر لخفض تكاليف الاستدلال لكل استعلام مع مطابقة جودة منافس أكبر.

تبرير نموذج منشور أصغر لخفض تكاليف الاستدلال لكل استعلام مع مطابقة جودة منافس أكبر، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

تدريب شينشيلا على الحساب الأمثل في الممارسة العملية

مراجعة النموذج الحالي واستنتاج أنه لم يتم تدريبه جيدًا، ثم التخطيط لعملية تدريب أطول بدلاً من زيادة المعلمات.

مراجعة نموذج حالي واستنتاج أنه لم يتم تدريبه جيدًا، ثم التخطيط لفترة تدريب أطول بدلاً من زيادة المعلمات، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

قد تستخدم الفرق المختلفة نفس المصطلح بشكل مختلف، لذا حدد النطاق مبكرًا.

!

يمكن أن تبدو المعايير قوية بينما يكون الأداء في العالم الحقيقي غير متساوٍ.

!

غالبًا ما يؤدي تجاهل جودة البيانات وخطط التقييم إلى نتائج هشة.

خارطة طريق التنفيذ

1

ابدأ بتعريف لغة واضحة للنتيجة التي تحتاجها.

ابدأ بتعريف لغة واضحة للنتيجة التي تحتاجها. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

اختر مقياس نجاح واحد وحالة فشل واحدة قبل الاختبار.

اختر مقياس نجاح واحد وحالة فشل واحدة قبل الاختبار. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

قم بتشغيل برنامج تجريبي صغير يحتوي على بيانات تمثيلية، وليس مجموعة تجريبية مصقولة.

قم بتشغيل برنامج تجريبي صغير يحتوي على بيانات تمثيلية، وليس مجموعة تجريبية مصقولة. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

قم بالتوثيق حيث يساعد تدريب Chinchilla Compute-Optimal Training وأين تكون الطرق الأبسط أفضل.

قم بالتوثيق حيث يساعد تدريب Chinchilla Compute-Optimal Training وأين تكون الطرق الأبسط أفضل. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف