الدليل الفني

راي للذكاء الاصطناعي الموزع

Ray هو إطار عمل مفتوح المصدر يجعل من السهل توسيع نطاق أعباء عمل Python وAI من جهاز كمبيوتر محمول إلى مجموعة من الآلاف من الأجهزة.

نظرة عامة

Ray هو إطار عمل مفتوح المصدر يجعل من السهل توسيع نطاق أعباء عمل Python وAI من جهاز كمبيوتر محمول إلى مجموعة من الآلاف من الأجهزة. إنه مهم لأنه يوفر طريقة بسيطة وموحدة لتوزيع التدريب والضبط ومعالجة البيانات والخدمة دون إعادة كتابة التعليمات البرمجية الخاصة بك لكل منها.

يعد Ray for Distributed AI بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع.

الغوص العميق

تتمثل فكرة راي الأساسية في تحويل وظائف وفئات بايثون العادية إلى وحدات موزعة بأقل قدر من التغيير. يتم تشغيل الوظيفة التي تم وضع علامة عليها على أنها "مهمة" عن بعد بشكل غير متزامن على أي عامل في المجموعة؛ تصبح الفئة التي تم تمييزها على أنها "ممثل" عن بعد خدمة ذات حالة تعيش على العامل. يقوم Ray بإرجاع العقود الآجلة خفيفة الوزن (مراجع الكائنات) ويتعامل مع الجدولة وحركة البيانات عبر مخزن كائنات مشترك والتسامح مع الأخطاء. علاوة على ذلك، توجد مكتبات مصممة خصيصًا لهذا الغرض: Ray Train للتدريب على النماذج الموزعة، وRay Tune للبحث عن المعلمات الفائقة، وRay Data لتدفق خطوط أنابيب البيانات، وRLlib للتعلم المعزز، وRay Service لخدمة النماذج القابلة للتطوير. يتيح ذلك لمجموعة واحدة التعامل مع سير عمل ML بالكامل من البداية إلى النهاية.

البصيرة الفنية

البدائيات الرئيسية هي المهام (استدعاءات الوظائف المتوازية وعديمة الحالة) والممثلين (العاملون ذوو الحالة الذين يحملون أشياء مثل نموذج محمل أو عداد). عند استدعاء مهمة عن بعد، يقوم Ray على الفور بإرجاع المستقبل ويقوم بجدولة العمل عبر وحدات المعالجة المركزية/وحدات معالجة الرسومات المتاحة؛ يمكنك استدعاء ray.get() لجلب النتائج. يقوم مخزن الكائنات الموزع في الذاكرة مع ذاكرة مشتركة خالية من النسخ بنقل الكائنات الكبيرة مثل المصفوفات بين العمال بكفاءة، مما يتجنب التسلسل المتكرر ويجعل خطوط أنابيب الذكاء الاصطناعي المثقلة بالبيانات سريعة.

إتقان راي للذكاء الاصطناعي الموزع

Ray هو إطار عمل مفتوح المصدر يجعل من السهل توسيع نطاق أعباء عمل Python وAI من جهاز كمبيوتر محمول إلى مجموعة من الآلاف من الأجهزة. إنه مهم لأنه يوفر طريقة بسيطة وموحدة لتوزيع التدريب والضبط ومعالجة البيانات والخدمة دون إعادة كتابة التعليمات البرمجية الخاصة بك لكل منها. يعد Ray for Distributed AI بمثابة لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع. لبناء فهم عميق، تعامل مع Ray for Distributed AI كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.

من الناحية العملية، تعمل الفرق القوية التي تستخدم Ray for Distributed AI على تحسين خيارات البنية والبيانات والبنية التحتية مقابل الموثوقية والتكلفة. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي الوقت نفسه، يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.

التأثير الاستراتيجي

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات.

تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث.

يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج.

تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.

مستقبل راي للذكاء الاصطناعي الموزع

لقد أصبح راي العمود الفقري للذكاء الاصطناعي واسع النطاق، ويستخدم بشكل خاص في التدريب وتقديم نماذج لغوية كبيرة. توقع النمو في العرض الخاص بـ LLM (Ray Service with vLLM)، وجدولة وحدة معالجة الرسومات غير المتجانسة، والتكامل الأكثر إحكامًا مع مستودعات البيانات وKubernetes عبر KubeRay، والقياس التلقائي الأفضل لأحمال العمل التوليدية الشائكة. مع نمو النماذج، من المرجح أن يتوسع دور راي في تنظيم التدريب متعدد العقد، وخطوط أنابيب RLHF، والاستدلال المجمع عبر آلاف المسرعات.

التنفيذ في العالم الحقيقي

تشغيل Ray Tune للبحث في مئات مجموعات المعلمات الفائقة بالتوازي عبر مجموعة GPU للعثور على أفضل تكوين للنموذج

استخدام Ray Train لتوزيع التدريب على نموذج التعلم العميق عبر العديد من وحدات معالجة الرسومات والعقد مع الحد الأدنى من تغييرات التعليمات البرمجية

إنشاء خط أنابيب لاستدلال الدُفعات باستخدام Ray Data لتسجيل ملايين السجلات من خلال دفقها من خلال نموذج عبر مجموعة

نشر نماذج متعددة خلف نقطة نهاية واحدة للقياس التلقائي باستخدام Ray Service للتعامل مع حركة الإنتاج المتغيرة

أنماط التنفيذ

راي للذكاء الاصطناعي الموزع في الممارسة العملية

تشغيل Ray Tune للبحث في مئات مجموعات المعلمات الفائقة بالتوازي عبر مجموعة GPU للعثور على أفضل تكوين للنموذج.

تشغيل Ray Tune للبحث في مئات مجموعات المعلمات الفائقة بالتوازي عبر مجموعة GPU للعثور على أفضل تكوين للنموذج، عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

راي للذكاء الاصطناعي الموزع في الممارسة العملية

استخدام Ray Train لتوزيع التدريب على نموذج التعلم العميق عبر العديد من وحدات معالجة الرسومات والعقد مع الحد الأدنى من تغييرات التعليمات البرمجية.

استخدام Ray Train لتوزيع التدريب على نموذج التعلم العميق عبر العديد من وحدات معالجة الرسومات والعقد مع الحد الأدنى من تغييرات التعليمات البرمجية، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

راي للذكاء الاصطناعي الموزع في الممارسة العملية

إنشاء خط أنابيب لاستدلال الدُفعات باستخدام Ray Data لتسجيل ملايين السجلات من خلال دفقها من خلال نموذج عبر مجموعة.

إنشاء خط أنابيب لاستدلال الدُفعات باستخدام Ray Data لتسجيل ملايين السجلات من خلال دفقها من خلال نموذج عبر مجموعة. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

راي للذكاء الاصطناعي الموزع في الممارسة العملية

نشر نماذج متعددة خلف نقطة نهاية واحدة للقياس التلقائي باستخدام Ray Service للتعامل مع حركة الإنتاج المتغيرة.

نشر نماذج متعددة خلف نقطة نهاية واحدة للقياس التلقائي باستخدام Ray Service للتعامل مع حركة الإنتاج المتغيرة، وعادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.

المخاطر والدرابزين

!

يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع.

!

غالبًا ما يتم التقليل من تكاليف البنية التحتية والصيانة.

!

يمكن أن تنمو الفجوات الأمنية وقابلية المراقبة عندما تصبح الأنظمة أكثر تعقيدًا.

خارطة طريق التنفيذ

1

تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ.

تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

2

المعيار في ظل ظروف التحميل والبيانات الواقعية.

المعيار في ظل ظروف التحميل والبيانات الواقعية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

3

مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم.

مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

4

قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس.

قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.

استمر في الاستكشاف