الدليل الفني

Kubernetes لأحمال عمل ML

Kubernetes هو نظام مفتوح المصدر يقوم تلقائيًا بجدولة البرامج الموجودة في حاويات وتوسيع نطاقها وإعادة تشغيلها عبر مجموعة من الأجهزة.

نظرة عامة

Kubernetes هو نظام مفتوح المصدر يقوم تلقائيًا بجدولة البرامج الموجودة في حاويات وتوسيع نطاقها وإعادة تشغيلها عبر مجموعة من الأجهزة. بالنسبة للتعلم الآلي، فهو يتيح للفرق حزم مهام التدريب المتعطشة لوحدة معالجة الرسومات والخوادم النموذجية الحساسة لزمن الوصول إلى الأجهزة المشتركة دون رعاية الخوادم الفردية.

يعد Kubernetes for ML Workloads بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية ووقت الاستجابة والموثوقية على نطاق واسع.

الغوص العميق

تم إنشاء Kubernetes في الأصل في Google لتشغيل خدمات الويب، ويتعامل مع مجموعتك على أنها مجموعة واحدة كبيرة من وحدة المعالجة المركزية والذاكرة ووحدات معالجة الرسومات، ثم يقرر الجهاز الذي يقوم بتشغيل كل حاوية. تعتمد فرق تعلم الآلة عليها لأن أعباء العمل متقطعة ومكلفة: قد يحتاج تشغيل التدريب إلى ثماني وحدات معالجة رسوميات لمدة ست ساعات، ثم لا شيء. يقوم Kubernetes بجدولة ذلك الوضع على عقدة تحتوي على وحدات معالجة رسومات مجانية، وعندما تنتهي المهمة، فإنه يحرر الأجهزة. كما أنه يحافظ على خوادم الاستدلال حية، ويعيد تشغيل الحاويات المتعطلة وينشر النسخ المتماثلة عبر الأجهزة من أجل المرونة. تضيف الأدوات المبنية في الأعلى، مثل Kubeflow وRay وKServe، أجزاء خاصة بالتعلم الآلي مثل مشغلي التدريب الموزع، وضبط المعلمات الفائقة، ونقاط نهاية النموذج ذات القياس التلقائي، بحيث يعمل علماء البيانات مع تجريدات عالية المستوى بدلاً من YAML الخام.

البصيرة الفنية

يقوم Kubernetes بتعيين وحدات معالجة الرسومات من خلال المكونات الإضافية للجهاز التي تعلن عن موارد مثل nvidia.com/gpu، والتي يطابقها المجدول مع طلبات الكبسولة. تمنع العيوب والتسامحات وظائف وحدة المعالجة المركزية الرخيصة من عقد وحدة معالجة الرسومات باهظة الثمن، بينما تقوم محددات العقد وقواعد التقارب بتثبيت التدريب على أجهزة معينة. للتدريب على وحدات معالجة الرسومات المتعددة، يقوم المشغلون بإنشاء مجموعة من الكبسولات التي تكتشف بعضها البعض وتقوم بتشغيل أطر عمل مثل PyTorch DDP أو Horovod، وتبادل التدرجات عبر شبكة المجموعة باستخدام NCCL.

إتقان Kubernetes لأحمال عمل ML

Kubernetes هو نظام مفتوح المصدر يقوم تلقائيًا بجدولة البرامج الموجودة في حاويات وتوسيع نطاقها وإعادة تشغيلها عبر مجموعة من الأجهزة. بالنسبة للتعلم الآلي، فهو يتيح للفرق حزم مهام التدريب المتعطشة لوحدة معالجة الرسومات والخوادم النموذجية الحساسة لزمن الوصول إلى الأجهزة المشتركة دون رعاية الخوادم الفردية. يعد Kubernetes for ML Workloads بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية ووقت الاستجابة والموثوقية على نطاق واسع. لبناء فهم عميق، تعامل مع Kubernetes for ML Workloads كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تعمل الفرق القوية التي تستخدم Kubernetes لأحمال عمل ML على تحسين خيارات البنية والبيانات والبنية التحتية مقابل الموثوقية والتكلفة. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي الوقت نفسه، يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات.

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث.

يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج.

تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل Kubernetes لأحمال عمل ML

توقع تكاملًا أكثر إحكامًا لتعلم الآلة: جدولة جماعية تطلق جميع حجرات التدريب الموزعة مرة واحدة أو لا شيء على الإطلاق، ومشاركة وحدة معالجة الرسومات (GPU) الجزئية والمقسمة زمنيًا بحيث تشترك العديد من المهام الخفيفة في بطاقة واحدة، ووضع مدرك للهيكل يحترم اتصالات NVLink السريعة. إن الاستدلال بدون خادم على Kubernetes، وتوسيع نطاق نقاط النهاية إلى الصفر بين الطلبات، ينضج. مع تزايد النماذج، ينسق القائمون على الجدولة بشكل متزايد عبر مجموعات وسحابات متعددة، وأصبحت أنظمة المشاركة العادلة القائمة على قائمة الانتظار مثل Kueue وVolcano معيارًا لإدارة سعة وحدة معالجة الرسومات النادرة.

التنفيذ في العالم الحقيقي

يستخدم مختبر الأبحاث مشغل تدريب Kubeflow لإطلاق مهمة تدريب موزعة على 32 وحدة معالجة رسومات PyTorch عبر أربع عقد، ثم يقوم تلقائيًا بتحرير وحدات معالجة الرسومات عندما تتقارب.

تقدم إحدى شركات التجارة الإلكترونية نموذج التوصية الخاص بها مع KServe، والذي يقوم تلقائيًا بتوسيع نطاق النسخ المتماثلة أثناء عملية البيع السريعة والتراجع عنها بين عشية وضحاها.

يدير البنك وظائف تسجيل الدفعات ليلاً مثل Kubernetes CronJobs، ويضعها في قائمة الانتظار على عقد وحدة المعالجة المركزية الاحتياطية حتى لا تتنافس مع حركة مرور الخدمة أثناء النهار.

تستخدم إحدى الشركات الناشئة Ray on Kubernetes لإجراء عمليات مسح متوازية للمعلمات الفائقة، وتدوير العشرات من الكبسولات التجريبية قصيرة العمر على المثيلات الفورية لخفض التكلفة.

أنماط التنفيذ

Kubernetes لأحمال عمل ML في الممارسة العملية

يستخدم مختبر الأبحاث مشغل تدريب Kubeflow لإطلاق مهمة تدريب موزعة على 32 وحدة معالجة رسومات PyTorch عبر أربع عقد، ثم يقوم تلقائيًا بتحرير وحدات معالجة الرسومات عندما تتقارب.

يستخدم مختبر الأبحاث مشغل تدريب Kubeflow لإطلاق مهمة تدريب موزعة على 32 وحدة معالجة رسومات PyTorch عبر أربع عقد، ثم يقوم بتحرير وحدات معالجة الرسومات تلقائيًا عندما تتقارب. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

Kubernetes لأحمال عمل ML في الممارسة العملية

تقدم إحدى شركات التجارة الإلكترونية نموذج التوصية الخاص بها مع KServe، والذي يقوم تلقائيًا بتوسيع نطاق النسخ المتماثلة أثناء عملية البيع السريعة والتراجع عنها بين عشية وضحاها.

تخدم شركة التجارة الإلكترونية نموذج التوصية الخاص بها مع KServe، الذي يقوم تلقائيًا بتوسيع نطاق النسخ المتماثلة أثناء البيع السريع والتراجع بين عشية وضحاها. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الخطأ مع مرور الوقت.

Kubernetes لأحمال عمل ML في الممارسة العملية

يدير البنك وظائف تسجيل الدفعات ليلاً مثل Kubernetes CronJobs، ويضعها في قائمة الانتظار على عقد وحدة المعالجة المركزية الاحتياطية حتى لا تتنافس مع حركة مرور الخدمة أثناء النهار.

يدير البنك وظائف تسجيل جماعية ليلاً مثل Kubernetes CronJobs، ويضعها في قائمة الانتظار على عقد وحدة المعالجة المركزية الاحتياطية حتى لا تتنافس مع خدمة حركة المرور أثناء النهار. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتبع كل من مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

Kubernetes لأحمال عمل ML في الممارسة العملية

تستخدم إحدى الشركات الناشئة Ray on Kubernetes لإجراء عمليات مسح متوازية للمعلمات الفائقة، وتدوير العشرات من الكبسولات التجريبية قصيرة العمر على المثيلات الفورية لخفض التكلفة.

تستخدم شركة ناشئة Ray on Kubernetes لإجراء عمليات مسح متوازية للمعلمات الفائقة، وتدوير العشرات من الكبسولات التجريبية قصيرة العمر على المثيلات الفورية لخفض التكلفة. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتبع كل من مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع.

!

غالبًا ما يتم التقليل من تكاليف البنية التحتية والصيانة.

!

يمكن أن تنمو الفجوات الأمنية وقابلية المراقبة عندما تصبح الأنظمة أكثر تعقيدًا.

خارطة طريق التنفيذ

1

تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ.

تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

المعيار في ظل ظروف التحميل والبيانات الواقعية.

المعيار في ظل ظروف التحميل والبيانات الواقعية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم.

مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس.

قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف