نظرة عامة
تعد تقنية Fully Sharded Data Parallel (FSDP) بمثابة تقنية تدريب موزعة تعمل على تقسيم معلمات النموذج والتدرجات وحالات المُحسّن عبر العديد من وحدات معالجة الرسومات بحيث يحمل كل جهاز شريحة فقط. فهو يجعل تدريب النماذج الضخمة أمرًا ممكنًا على الأجهزة التي لا يمكنها أبدًا احتواء النموذج بأكمله في ذاكرة GPU واحدة.
تعد البيانات المتوازية بالكامل بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع.
الغوص العميق
يحتفظ توازي البيانات التقليدي بنسخة كاملة من النموذج على كل وحدة معالجة رسومات، مما يهدر الذاكرة ويحد من حجم النموذج. FSDP، المشهور بواسطة Meta's PyTorch والمستوحى من Microsoft's ZeRO، بدلاً من ذلك يقسم ثلاثة أشياء عبر الأجهزة: المعلمات، والتدرجات، وحالات المُحسِّن. أثناء التمرير الأمامي، تقوم كل وحدة معالجة رسومات (GPU) بتجميع الأوزان الكاملة للطبقة التي تحسبها مؤقتًا عبر تجميع كامل، وتشغيل الحساب، ثم تحرير النسخة المجمعة على الفور. يعمل التمرير للخلف بشكل مشابه، متبوعًا بتقليل التشتت الذي يوزع شرائح التدرج مرة أخرى على وحدات معالجة الرسومات الخاصة بها. نظرًا لأن كل جهاز يخزن بشكل دائم جزءًا من النموذج فقط، فإن استخدام الذاكرة ينخفض بشكل خطي تقريبًا مع عدد وحدات معالجة الرسومات، مما يسمح للفرق بتدريب النماذج باستخدام عشرات أو مئات المليارات من المعلمات.
البصيرة الفنية
يتاجر FSDP باتصالات إضافية لتوفير الذاكرة. يتم إعادة بناء أوزان كل طبقة حسب الطلب مع جمعها بالكامل قبل الاستخدام والتخلص منها مباشرة بعد ذلك، بينما يتم دمج التدرجات وتقسيمها مع تقليل التشتت. يمكن أن يتداخل الاتصال مع العمليات الحسابية عن طريق الجلب المسبق لمعلمات الطبقة التالية أثناء تشغيل الطبقة الحالية، مما يؤدي إلى إخفاء الكثير من زمن وصول الشبكة. يؤدي ضبط دقة التجزئة (سياسة التغليف) إلى موازنة أثر الذاكرة مع حمل الاتصالات.
إتقان البيانات المتوازية بالكامل
تعد تقنية Fully Sharded Data Parallel (FSDP) بمثابة تقنية تدريب موزعة تعمل على تقسيم معلمات النموذج والتدرجات وحالات المُحسّن عبر العديد من وحدات معالجة الرسومات بحيث يحمل كل جهاز شريحة فقط. فهو يجعل تدريب النماذج الضخمة أمرًا ممكنًا على الأجهزة التي لا يمكنها أبدًا احتواء النموذج بأكمله في ذاكرة GPU واحدة. تعد البيانات المتوازية بالكامل بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع. لبناء فهم عميق، يجب التعامل مع البيانات المتوازية بالكامل كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.
من الناحية العملية، تعمل الفرق القوية التي تستخدم Fully Shared Data Parallel على تحسين خيارات البنية والبيانات والبنية التحتية مقابل الموثوقية والتكلفة. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.
تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي الوقت نفسه، يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.
التأثير الاستراتيجي
تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات.
تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث.
يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج.
تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
التنفيذ في العالم الحقيقي
الضبط الدقيق لنموذج لاما ذو 70 مليار معلمة عبر 8 وحدات معالجة رسوميات لا يمكنها بشكل فردي حمل الأوزان الكاملة.
التدريب المسبق لنماذج اللغات الكبيرة في مختبرات الذكاء الاصطناعي من خلال مشاركة حالات المُحسِّن (التي تهيمن على الذاكرة مع آدم) عبر مئات المسرعات.
يستخدم الباحثون غلاف FSDP الخاص بـ PyTorch لتدريب محولات الرؤية على مجموعة جامعية دون شراء وحدات معالجة الرسومات الرائدة بسعة 80 جيجابايت.
الجمع بين FSDP وbfloat16 ذو الدقة المختلطة لخفض الذاكرة إلى النصف تقريبًا وتسريع إنتاجية التدريب على النماذج متعددة الوسائط.
أنماط التنفيذ
البيانات المجزأة بالكامل الموازية في الممارسة العملية
الضبط الدقيق لنموذج لاما ذو 70 مليار معلمة عبر 8 وحدات معالجة رسوميات لا يمكنها بشكل فردي حمل الأوزان الكاملة.
الضبط الدقيق لنموذج Llama المكون من 70 مليار معلمة عبر 8 وحدات معالجة رسوميات لا يمكنها بشكل فردي تحمل الأوزان الكاملة. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحافظ على مسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
البيانات المجزأة بالكامل الموازية في الممارسة العملية
التدريب المسبق لنماذج اللغات الكبيرة في مختبرات الذكاء الاصطناعي من خلال مشاركة حالات المُحسِّن (التي تهيمن على الذاكرة مع آدم) عبر مئات المسرعات.
التدريب المسبق لنماذج اللغة الكبيرة في مختبرات الذكاء الاصطناعي من خلال تقسيم حالات المُحسِّن (التي تهيمن على الذاكرة مع آدم) عبر مئات المسرعات. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد عتبات الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
البيانات المجزأة بالكامل الموازية في الممارسة العملية
يستخدم الباحثون غلاف FSDP الخاص بـ PyTorch لتدريب محولات الرؤية على مجموعة جامعية دون شراء وحدات معالجة الرسومات الرائدة بسعة 80 جيجابايت.
الباحثون الذين يستخدمون غلاف FSDP الخاص بـ PyTorch لتدريب محولات الرؤية في مجموعة جامعية دون شراء وحدات معالجة الرسومات الرائدة بسعة 80 جيجابايت، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
البيانات المجزأة بالكامل الموازية في الممارسة العملية
الجمع بين FSDP وbfloat16 ذو الدقة المختلطة لخفض الذاكرة إلى النصف تقريبًا وتسريع إنتاجية التدريب على النماذج متعددة الوسائط.
الجمع بين FSDP وbfloat16 مختلط الدقة لخفض الذاكرة إلى النصف تقريبًا وتسريع إنتاجية التدريب على النماذج متعددة الوسائط، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
المخاطر والدرابزين
يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع.
غالبًا ما يتم التقليل من تكاليف البنية التحتية والصيانة.
يمكن أن تنمو الفجوات الأمنية وقابلية المراقبة عندما تصبح الأنظمة أكثر تعقيدًا.
خارطة طريق التنفيذ
تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ.
تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
المعيار في ظل ظروف التحميل والبيانات الواقعية.
المعيار في ظل ظروف التحميل والبيانات الواقعية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم.
مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس.
قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.