الدليل الفني

شبكات InfiniBand وRDMA

InfiniBand عبارة عن اتصال بيني عالي السرعة ومنخفض الكمون يربط الخوادم ووحدات معالجة الرسومات في مجموعات الذكاء الاصطناعي، ويتيح RDMA لجهاز واحد قراءة ذاكرة جهاز آخر أو كتابتها دون الحاجة إلى استخدام وحدة المعالجة المركزية.

نظرة عامة

InfiniBand عبارة عن اتصال بيني عالي السرعة ومنخفض الكمون يربط الخوادم ووحدات معالجة الرسومات في مجموعات الذكاء الاصطناعي، ويتيح RDMA لجهاز واحد قراءة ذاكرة جهاز آخر أو كتابتها دون الحاجة إلى استخدام وحدة المعالجة المركزية. إنهم معًا هم السباكة التي تحافظ على تغذية الآلاف من وحدات معالجة الرسومات بالبيانات أثناء التدريب على النماذج الكبيرة.

تعد شبكة InfiniBand وRDMA بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع.

الغوص العميق

عندما تقوم بتدريب نموذج عبر الآلاف من وحدات معالجة الرسومات، غالبًا ما تصبح الشبكة هي عنق الزجاجة، وليس الرقائق. InfiniBand عبارة عن نسيج مبدل مصمم خصيصًا لهذا الغرض: فهو يوفر عرض نطاق ترددي لكل رابط بمئات الجيجابت في الثانية (يعمل NDR بسرعة 400 جيجابت في الثانية) وزمن وصول على نطاق ميكروثانية. وتتمثل خدعتها الرئيسية في الوصول المباشر للذاكرة عن بعد (RDMA)، الذي ينقل البيانات مباشرة بين ذاكرة عقدتين، متجاوزًا نسخ نواة نظام التشغيل ووحدة المعالجة المركزية التي تعمل على إبطاء TCP/IP العادي. يؤدي هذا "تجاوز النواة" إلى تحرير دورات وحدة المعالجة المركزية وتقليل زمن الوصول. يوفر InfiniBand أيضًا التحكم في تدفق الأجهزة من أجل نسيج لا يفقد البيانات، وتهيمن محولات Quantum من NVIDIA بالإضافة إلى محولات ConnectX على أجهزة الكمبيوتر العملاقة التي تعمل بالذكاء الاصطناعي. توفر RoCE (RDMA عبر Ethernet المتقاربة) فوائد RDMA مماثلة لشبكات Ethernet.

البصيرة الفنية

يعمل RDMA من خلال الأفعال وأزواج قائمة الانتظار. ينشر التطبيق طلبات العمل لإرسال واستقبال قوائم الانتظار؛ يقرأها محول الشبكة (HCA) وينقل البيانات مباشرة إلى مناطق الذاكرة المثبتة مسبقًا والمسجلة على المضيف البعيد. ونظرًا لأن بطاقة NIC تتولى عملية النقل في الأجهزة ويتم تجاوز kernel لنظام التشغيل، فلا توجد نسخ بيانات ولا توجد مقاطعات لوحدة المعالجة المركزية لكل حزمة للنقل المجمع. يمنع التحكم في التدفق المعتمد على طبقة الارتباط في InfiniBand تجاوز سعة المخزن المؤقت، مما يجعل النسيج بلا فقدان دون عواصف إعادة الإرسال.

إتقان شبكات InfiniBand وRDMA

InfiniBand عبارة عن اتصال بيني عالي السرعة ومنخفض الكمون يربط الخوادم ووحدات معالجة الرسومات في مجموعات الذكاء الاصطناعي، ويتيح RDMA لجهاز واحد قراءة ذاكرة جهاز آخر أو كتابتها دون الحاجة إلى استخدام وحدة المعالجة المركزية. إنهم معًا هم السباكة التي تحافظ على تغذية الآلاف من وحدات معالجة الرسومات بالبيانات أثناء التدريب على النماذج الكبيرة. تعد شبكة InfiniBand وRDMA بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع. لبناء فهم عميق، تعامل مع InfiniBand وشبكات RDMA كنموذج تشغيل، وليس كميزة واحدة: حدد النتائج المرغوبة، ووضح الافتراضات، وافصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تعمل الفرق القوية التي تستخدم InfiniBand وRDMA Networking على تحسين خيارات البنية والبيانات والبنية التحتية مقابل الموثوقية والتكلفة. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي الوقت نفسه، يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات.

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث.

يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج.

تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل شبكات InfiniBand وRDMA

يستمر عرض النطاق الترددي في الارتفاع: يستهدف XDR InfiniBand سرعة 800 جيجابت/ثانية لكل رابط، مع خرائط طريق نحو 1.6 تيرابت/ثانية. تشتد المنافسة حيث يقوم اتحاد Ultra Ethernet بتصميم شبكة Ethernet تتطابق مع InfiniBand لأحمال عمل الذكاء الاصطناعي، ومع قيام الحوسبة داخل الشبكة (SHARP) بتفريغ العمليات الحسابية الجماعية في المحولات نفسها. توقع تكاملًا أكثر إحكامًا بين وحدة معالجة الرسومات والشبكة، واتصالات بصرية لخفض الطاقة، وتوسيع نطاق الأقمشة إلى مجموعات تضم مئات الآلاف من المسرعات مع نمو النماذج الحدودية.

التنفيذ في العالم الحقيقي

توصيل الآلاف من وحدات معالجة الرسومات في كمبيوتر فائق الذكاء الاصطناعي بحيث تنتقل البيانات المتدرجة بين العقد بالميكروثانية أثناء التدريب الموزع

السماح لأحد الخوادم بقراءة ذاكرة خادم آخر مباشرة (RDMA) لتسريع أنظمة الملفات وقواعد البيانات الموزعة دون تحميل وحدة المعالجة المركزية

تشغيل عمليات التخفيض الشامل لـ NCCL عبر InfiniBand لمزامنة أوزان النماذج عبر مجموعة GPU

استخدام RoCE لإجراء عمليات نقل ذات زمن وصول منخفض بنمط RDMA إلى شبكات مراكز بيانات Ethernet الحالية

أنماط التنفيذ

شبكات InfiniBand وRDMA في الممارسة العملية

توصيل الآلاف من وحدات معالجة الرسومات في كمبيوتر فائق الذكاء الاصطناعي بحيث تنتقل البيانات المتدرجة بين العقد بالميكروثانية أثناء التدريب الموزع.

ربط الآلاف من وحدات معالجة الرسومات في كمبيوتر فائق الذكاء الاصطناعي بحيث تنتقل البيانات المتدرجة بين العقد بالميكروثانية أثناء التدريب الموزع عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

شبكات InfiniBand وRDMA في الممارسة العملية

السماح لأحد الخوادم بقراءة ذاكرة خادم آخر مباشرة (RDMA) لتسريع أنظمة الملفات وقواعد البيانات الموزعة دون تحميل وحدة المعالجة المركزية.

السماح لأحد الخوادم بقراءة ذاكرة خادم آخر مباشرةً (RDMA) لتسريع أنظمة الملفات الموزعة وقواعد البيانات دون زيادة عبء وحدة المعالجة المركزية (CPU) عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

شبكات InfiniBand وRDMA في الممارسة العملية

تشغيل عمليات التخفيض الشامل لـ NCCL عبر InfiniBand لمزامنة أوزان النماذج عبر مجموعة GPU.

تشغيل عمليات التقليل الشامل لـ NCCL عبر InfiniBand لمزامنة أوزان النماذج عبر مجموعة وحدات معالجة الرسومات، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

شبكات InfiniBand وRDMA في الممارسة العملية

استخدام RoCE لإجراء عمليات نقل ذات زمن وصول منخفض بنمط RDMA إلى شبكات مراكز بيانات Ethernet الحالية.

استخدام RoCE لجلب عمليات النقل ذات زمن الوصول المنخفض بنمط RDMA إلى شبكات مراكز بيانات Ethernet الحالية تحصل الفرق عادةً على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع.

!

غالبًا ما يتم التقليل من تكاليف البنية التحتية والصيانة.

!

يمكن أن تنمو الفجوات الأمنية وقابلية المراقبة عندما تصبح الأنظمة أكثر تعقيدًا.

خارطة طريق التنفيذ

1

تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ.

تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

المعيار في ظل ظروف التحميل والبيانات الواقعية.

المعيار في ظل ظروف التحميل والبيانات الواقعية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم.

مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس.

قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف