الدليل الفني

Slurm لمجموعات تدريب الذكاء الاصطناعي

Slurm هو مدير أحمال عمل مفتوح المصدر يقوم بجدولة المهام وإدارتها على مجموعات حوسبة عالية الأداء، وقد أصبح خيارًا افتراضيًا للتدريب الكبير على الذكاء الاصطناعي.

نظرة عامة

Slurm هو مدير أحمال عمل مفتوح المصدر يقوم بجدولة المهام وإدارتها على مجموعات حوسبة عالية الأداء، وقد أصبح خيارًا افتراضيًا للتدريب الكبير على الذكاء الاصطناعي. إنه أمر مهم لأنه يوزع بشكل موثوق تدريبًا مكثفًا عبر الآلاف من وحدات معالجة الرسومات.

تعد مجموعات تدريب Slurm for AI بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع.

الغوص العميق

نشأت Slurm (أداة Linux البسيطة لإدارة الموارد) في الحوسبة الفائقة وهي الآن تعمل على تشغيل العديد من أكبر مجموعات تدريب الذكاء الاصطناعي في العالم. يقوم المستخدمون بإرسال نصوص برمجية دفعة واحدة، ويطلبون موارد مثل العقد ووحدات معالجة الرسومات بتوجيهات مثل --gres=gpu:8 وقوائم انتظار Slurm، ويحددون الأولويات ويبدأون العمل. يعمل مشغل التشغيل الخاص به على توليد عمليات منسقة عبر العقد، والتي تقترن بشكل طبيعي مع الأطر الموزعة مثل PyTorch DDP وNCCL. يتتبع Slurm محاسبة الموارد، ويفرض حدود المشاركة العادلة والتقسيم، ويتعامل مع جدولة إعادة التعبئة لوضع المهام الصغيرة في الفجوات. بالنسبة للتدريب على النماذج الحدودية، تعتمد الفرق على Slurm لإدارة الآلاف من وحدات معالجة الرسوميات، وإعادة التشغيل من نقاط التفتيش بعد فشل العقدة، والاحتفاظ بالسعة المخصصة لفترات طويلة تمتد لعدة أسابيع.

البصيرة الفنية

يتخذ البرنامج الخفي لوحدة تحكم Slurm (slurmctld) قرارات الجدولة بينما يقوم وكيل slurmd الموجود على كل عقدة بتشغيل المهام وحالة التقارير. يقوم البرنامج الإضافي للموارد العامة (GRES) بتتبع وحدات معالجة الرسومات بحيث تطلبها الوظائف بشكل صريح. يقوم srun بتعيين متغيرات البيئة (الرتبة، الحجم العالمي، العنوان الرئيسي) التي توزع مكتبات التدريب المقروءة لتمهيد اتصال NCCL. تتيح جدولة إعادة التعبئة تشغيل المهام الأقصر في وقت مبكر طالما أنها لا تؤخر الحجوزات ذات الأولوية الأعلى، مما يحافظ على ارتفاع معدل الاستخدام.

إتقان Slurm لمجموعات تدريب الذكاء الاصطناعي

Slurm هو مدير أحمال عمل مفتوح المصدر يقوم بجدولة المهام وإدارتها على مجموعات حوسبة عالية الأداء، وقد أصبح خيارًا افتراضيًا للتدريب الكبير على الذكاء الاصطناعي. إنه أمر مهم لأنه يوزع بشكل موثوق تدريبًا مكثفًا عبر الآلاف من وحدات معالجة الرسومات. تعد مجموعات تدريب Slurm for AI بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع. لبناء فهم عميق، تعامل مع مجموعات تدريب Slurm for AI كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تعمل الفرق القوية التي تستخدم مجموعات تدريب Slurm for AI على تحسين خيارات البنية والبيانات والبنية التحتية مقابل الموثوقية والتكلفة. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي الوقت نفسه، يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات.

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث.

يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج.

تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل Slurm لمجموعات تدريب الذكاء الاصطناعي

يستمر Slurm في إضافة السحابة المتفجرة، ودعم الحاوية عبر Pyxis وEnroot، وميزات أكثر إحكامًا لوحدة معالجة الرسومات. مع توسع مجموعات الذكاء الاصطناعي نحو ما يزيد عن 100000 وحدة معالجة رسوميات، توقع تحملًا أقوى للأخطاء، وتكاملًا تلقائيًا لإعادة تشغيل نقاط التفتيش، ووظائف مرنة يتم تغيير حجمها بعد الفشل. تقوم العديد من المؤسسات الآن بتشغيل Slurm جنبًا إلى جنب مع Kubernetes أو تحته، وتهدف برامج الجدولة المختلطة إلى الجمع بين كفاءة نمط الحوسبة عالية الأداء (HPC) والمرونة السحابية الأصلية لعمليات تدريب أكبر من أي وقت مضى.

التنفيذ في العالم الحقيقي

يطلق أحد المختبرات الحدودية تدريبًا يمتد لعدة أسابيع عبر الآلاف من وحدات معالجة الرسومات باستخدام برنامج نصي دفعة واحدة يطلب مئات العقد.

يرسل أحد الباحثين "srun --gres=gpu:8" للحصول على ثماني وحدات معالجة رسوميات على عقدة واحدة لتجربة PyTorch DDP.

تقوم جدولة إعادة التعبئة بفتح مهمة تقييم قصيرة في وحدات معالجة الرسومات الخاملة بينما تنتظر عملية تدريب كبيرة محجوزة للبدء.

بعد فشل العقدة في منتصف التشغيل، يعيد Slurm المهمة ويستأنفها من آخر نقطة تفتيش بدلاً من البدء من جديد.

أنماط التنفيذ

Slurm لمجموعات تدريب الذكاء الاصطناعي في الممارسة العملية

يطلق أحد المختبرات الحدودية تدريبًا يمتد لعدة أسابيع عبر الآلاف من وحدات معالجة الرسومات باستخدام برنامج نصي دفعة واحدة يطلب مئات العقد.

يطلق أحد المختبرات الحدودية تدريبًا يمتد لعدة أسابيع عبر الآلاف من وحدات معالجة الرسومات باستخدام برنامج نصي دفعة واحدة يطلب مئات العقد. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

Slurm لمجموعات تدريب الذكاء الاصطناعي في الممارسة العملية

يرسل أحد الباحثين "srun --gres=gpu:8" للحصول على ثماني وحدات معالجة رسوميات على عقدة واحدة لتجربة PyTorch DDP.

يرسل أحد الباحثين "srun --gres=gpu:8" للحصول على ثماني وحدات معالجة رسوميات على عقدة واحدة لتجربة PyTorch DDP. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

Slurm لمجموعات تدريب الذكاء الاصطناعي في الممارسة العملية

تقوم جدولة إعادة التعبئة بفتح مهمة تقييم قصيرة في وحدات معالجة الرسومات الخاملة بينما تنتظر عملية تدريب كبيرة محجوزة للبدء.

تقوم جدولة إعادة التعبئة بفتح مهمة تقييم قصيرة في وحدات معالجة الرسومات الخاملة بينما تنتظر عملية تدريب كبيرة محجوزة للبدء، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

Slurm لمجموعات تدريب الذكاء الاصطناعي في الممارسة العملية

بعد فشل العقدة في منتصف التشغيل، يعيد Slurm المهمة ويستأنفها من آخر نقطة تفتيش بدلاً من البدء من جديد.

بعد فشل العقدة في منتصف التشغيل، يعيد Slurm المهمة وتستأنفها من أحدث نقطة تفتيش بدلاً من البدء من جديد. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع.

!

غالبًا ما يتم التقليل من تكاليف البنية التحتية والصيانة.

!

يمكن أن تنمو الفجوات الأمنية وقابلية المراقبة عندما تصبح الأنظمة أكثر تعقيدًا.

خارطة طريق التنفيذ

1

تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ.

تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

المعيار في ظل ظروف التحميل والبيانات الواقعية.

المعيار في ظل ظروف التحميل والبيانات الواقعية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم.

مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس.

قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف