الدليل الفني

التدريب الدقيق المختلط

يعمل التدريب الدقيق المختلط على تسريع تدريب الشبكة العصبية وتقليل استخدام الذاكرة عن طريق إجراء معظم العمليات الحسابية بفاصلة عائمة 16 بت بدلاً من 32 بت.

نظرة عامة

يعمل التدريب الدقيق المختلط على تسريع تدريب الشبكة العصبية وتقليل استخدام الذاكرة عن طريق إجراء معظم العمليات الحسابية بفاصلة عائمة 16 بت بدلاً من 32 بت. فهو يتيح لنفس وحدة معالجة الرسومات تدريب النماذج الأكبر حجمًا بشكل أسرع دون فقدان الدقة تقريبًا.

يعد التدريب الدقيق المختلط بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع.

الغوص العميق

يقوم التدريب التقليدي بتخزين الأوزان وتشغيل الرياضيات في نقطة عائمة 32 بت (FP32). تستخدم الدقة المختلطة تنسيقات 16 بت أقل دقة (FP16 أو bfloat16) لمضاعفات المصفوفة الثقيلة، مع الاحتفاظ بـ "نسخة رئيسية" 32 بت من الأوزان للحصول على تحديثات مستقرة. نظرًا لأن أرقام 16 بت هي نصف الحجم، فهي أكثر ملاءمةً لذاكرة وحدة معالجة الرسومات وتقوم Tensor Cores بمعالجتها بشكل أسرع بمعدل 2 إلى 8 مرات تقريبًا. المصيد هو النطاق الضيق لـ FP16: يمكن أن تتدفق التدرجات الصغيرة إلى الصفر. الإصلاح القياسي هو تحجيم الخسارة، الذي يضاعف الخسارة بعامل كبير قبل الانتشار العكسي بحيث تظل التدرجات الصغيرة قابلة للتمثيل، ثم يقسمها مرة أخرى قبل تحديث الوزن. تعمل تقنية Apex من NVIDIA وAMP المدمج (الدقة المختلطة التلقائية) في PyTorch وTensorFlow على أتمتة ذلك.

البصيرة الفنية

يحتوي FP16 على 5 بتات أسية فقط، مما يوفر نطاقًا ديناميكيًا صغيرًا يؤدي إلى تدفق سفلي متدرج. يحتفظ Bfloat16 بـ 8 بتات أسية (مطابقة لنطاق FP32) ولكن بعدد أقل من البتات العشرية، لذلك نادرًا ما يحتاج إلى قياس الخسارة - وهو السبب الرئيسي وراء تفضيل Google لوحدات TPU ووحدات معالجة الرسومات الحديثة له. تعمل Tensor Cores على تسريع العمل عن طريق مضاعفة معاملات 16 بت مع تجميع المجاميع الجزئية في FP32، مما يحافظ على الدقة حيث قد تتفاقم أخطاء الجمع.

إتقان التدريب الدقيق المختلط

يعمل التدريب الدقيق المختلط على تسريع تدريب الشبكة العصبية وتقليل استخدام الذاكرة عن طريق إجراء معظم العمليات الحسابية بفاصلة عائمة 16 بت بدلاً من 32 بت. فهو يتيح لنفس وحدة معالجة الرسومات تدريب النماذج الأكبر حجمًا بشكل أسرع دون فقدان الدقة تقريبًا. يعد التدريب الدقيق المختلط بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع. لبناء فهم عميق، تعامل مع التدريب الدقيق المختلط كنموذج تشغيل، وليس كميزة واحدة: حدد النتائج المرغوبة، ووضح الافتراضات، وافصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تعمل الفرق القوية التي تستخدم التدريب الدقيق المختلط على تحسين خيارات البنية والبيانات والبنية التحتية مقابل الموثوقية والتكلفة. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي الوقت نفسه، يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات.

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث.

يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج.

تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل التدريب الدقيق المختلط

الدقة تستمر في الانخفاض. أصبح تدريب FP8، المدعوم على وحدات معالجة الرسوميات NVIDIA Hopper وBlackwell، معيارًا قياسيًا للنماذج الحدودية، ويدفع البحث في FP4 وتنسيقات القياس الدقيق (MXFP) إلى أبعد من ذلك. توقع أن تقوم الأطر بتحديد الدقة تلقائيًا لكل طبقة، وأجهزة للتعامل بشكل أصلي مع التنسيقات الأضيق من أي وقت مضى، والتدريب المدرك للكمية لطمس الخط الفاصل بين التدريب منخفض الدقة والاستدلال، مما يقلل من تكلفة تدريب نماذج تريليون معلمة.

التنفيذ في العالم الحقيقي

يقوم Torch.cuda.amp.autocast الخاص بـ PyTorch بتغليف حلقة تدريب لخفض الذاكرة إلى النصف تقريبًا ومضاعفة الإنتاجية على وحدة معالجة الرسومات واحدة

تدريب نماذج لغوية كبيرة مثل محولات نمط GPT في bfloat16 على وحدات TPU لتجنب ضبط حجم الخسارة

تركيب حجم دفعة أكبر على وحدة معالجة الرسومات RTX للمستهلك عن طريق تحويل التدريب على صور ResNet من FP32 إلى FP16

دقة FP8 المختلطة على وحدات معالجة الرسوميات NVIDIA H100 لخفض تكلفة التدريب المسبق للنماذج الحدودية

أنماط التنفيذ

التدريب الدقيق المختلط في الممارسة العملية

يقوم torch.cuda.amp.autocast الخاص بـ PyTorch بتغليف حلقة تدريب لخفض الذاكرة إلى النصف تقريبًا ومضاعفة الإنتاجية على وحدة معالجة رسومات واحدة.

يقوم torch.cuda.amp.autocast الخاص بـ PyTorch بتغليف حلقة تدريب لخفض الذاكرة إلى النصف تقريبًا والإنتاجية المزدوجة على وحدة معالجة رسومات واحدة. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

التدريب الدقيق المختلط في الممارسة العملية

تدريب نماذج لغوية كبيرة مثل المحولات ذات نمط GPT في bfloat16 على وحدات TPU لتجنب ضبط قياس الخسارة.

تدريب نماذج لغوية كبيرة مثل المحولات على نمط GPT في bfloat16 على وحدات TPU لتجنب ضبط قياس الخسارة عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

التدريب الدقيق المختلط في الممارسة العملية

تركيب حجم دفعة أكبر على وحدة معالجة الرسومات RTX للمستهلك عن طريق تحويل التدريب على صور ResNet من FP32 إلى FP16.

تركيب حجم دفعة أكبر على وحدة معالجة الرسومات RTX للمستهلك عن طريق تحويل التدريب على صور ResNet من FP32 إلى FP16 عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

التدريب الدقيق المختلط في الممارسة العملية

دقة FP8 مختلطة على وحدات معالجة الرسوميات NVIDIA H100 لخفض تكلفة التدريب المسبق على النماذج ذات النطاق الحدودي.

دقة FP8 مختلطة على وحدات معالجة الرسوميات NVIDIA H100 لخفض تكلفة التدريب المسبق على النماذج ذات النطاق الحدودي، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع.

!

غالبًا ما يتم التقليل من تكاليف البنية التحتية والصيانة.

!

يمكن أن تنمو الفجوات الأمنية وقابلية المراقبة عندما تصبح الأنظمة أكثر تعقيدًا.

خارطة طريق التنفيذ

1

تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ.

تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

المعيار في ظل ظروف التحميل والبيانات الواقعية.

المعيار في ظل ظروف التحميل والبيانات الواقعية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم.

مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس.

قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف