نظرة عامة
KServe عبارة عن منصة موحدة أصلية من Kubernetes لخدمة نماذج التعلم الآلي على نطاق واسع. إنه يمنح الفرق طريقة واحدة معلنة لنشر النماذج ذات القياس التلقائي، وعمليات طرح الكناري، والقياس إلى الصفر، مما يؤدي إلى تجريد معظم أعمال السباكة في Kubernetes.
KServe وModel Serving على Kubernetes عبارة عن لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع.
الغوص العميق
يُعرف KServe سابقًا باسم KFServing ونشأ من مشروع Kubeflow، ويحدد مورد InferenceService المخصص. تكتب ملف YAML قصيرًا يشير إلى نموذج مخزّن في وحدة تخزين الكائنات (S3، GCS، Azure Blob)، ويتولى KServe الباقي. وهو يدعم كلا من الاستدلال التنبئي، وبشكل متزايد، خدمة LLM التوليدية. تقوم KServe بشحن "أوقات تشغيل العرض" المعدة مسبقًا لأطر العمل الشائعة (TensorFlow Serving، وTorchServe، وTriton، وscikit-learn، وXGBoost، وHugging Face) وتدعم الحاويات المخصصة. تم تصميمه استنادًا إلى Knative Serving وطبقة الشبكة (Istio أو ما شابه)، وهو يوفر قياسًا تلقائيًا يعتمد على الطلب بما في ذلك القياس الحقيقي إلى الصفر، لذلك لا تستهلك النماذج الخاملة أي حساب. كما أنه يعمل على توحيد واجهة برمجة تطبيقات التنبؤ حول بروتوكول الاستدلال المفتوح، بحيث يتحدث العملاء مع كل نموذج بنفس الطريقة بغض النظر عن إطار العمل.
البصيرة الفنية
يعتمد القياس التلقائي لـ KServe على Knative، الذي يقيس عدد النسخ المتماثلة بناءً على التزامن أو الطلبات في الثانية ويمكن أن ينخفض إلى صفر نسخ متماثلة عندما تتوقف حركة المرور، ثم يبدأ على البارد عند الطلب. تقوم InferenceService بتجريد خط أنابيب الاستدلال الكامل إلى مكونات التوقع والمحول (ما قبل / ما بعد المعالجة) والشرح. يتم تحميل النماذج من مخزن الكائنات عبر "مهيئات التخزين" التي تسحب العناصر إلى الكبسولة عند بدء التشغيل، مما يؤدي إلى فصل تخزين النموذج عن صورة حاوية التقديم.
إتقان KServe والعرض النموذجي على Kubernetes
KServe عبارة عن منصة موحدة أصلية من Kubernetes لخدمة نماذج التعلم الآلي على نطاق واسع. إنه يمنح الفرق طريقة واحدة معلنة لنشر النماذج ذات القياس التلقائي، وعمليات طرح الكناري، والقياس إلى الصفر، مما يؤدي إلى تجريد معظم أعمال السباكة في Kubernetes. KServe وModel Serving على Kubernetes عبارة عن لبنة بناء تقنية تؤثر على جودة النموذج وتكلفة البنية التحتية وزمن الوصول والموثوقية على نطاق واسع. لبناء فهم عميق، تعامل مع KServe وModel Serving على Kubernetes كنموذج تشغيل، وليس كميزة واحدة: تحديد النتائج المرغوبة، وتوضيح الافتراضات، وفصل ما يمكن للنظام القيام به بشكل موثوق عما لا يزال يتطلب حكم الخبراء.
من الناحية العملية، تعمل الفرق القوية التي تستخدم KServe وModel Serving على Kubernetes على تحسين خيارات البنية والبيانات والبنية التحتية مقابل الموثوقية والتكلفة. وهي تقوم بتوثيق معايير نجاح واضحة، واختبارها مقابل بيانات واقعية وسير العمل، والتكرار بناءً على أنماط الفشل الملحوظة بدلاً من الانتصارات المعيارية لمرة واحدة. وهذا هو المكان الذي يتحول فيه الفهم النظري إلى قدرة دائمة عبر المنتج والسياسة والعمليات.
تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي الوقت نفسه، يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع. ويتمثل النهج الأكثر مرونة في الجمع بين سرعة التجريب وانضباط الحوكمة: تشغيل البرامج التجريبية، والتقاط الأدلة، ونشر سجلات القرارات، وتحديث الضمانات بشكل مستمر مع تطور سلوك النموذج، وتوقعات المستخدم، والمتطلبات التنظيمية.
التأثير الاستراتيجي
تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات.
تؤدي قرارات الهندسة المعمارية إلى زيادة الأداء وتكلفة التشغيل لسنوات. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث.
يساعد التعليم الفني الفرق على اختيار المجموعة المناسبة، وليس فقط المجموعة الأحدث. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج.
تعمل الخيارات الهندسية الأفضل على تقليل حوادث الموثوقية في الإنتاج. وفي عمليات النشر عالية الجودة، تتم ترجمة ذلك إلى قواعد تشغيل قابلة للقياس، وحدود ملكية، وطقوس مراجعة متكررة حتى تتمكن الفرق من توسيع نطاق الثقة بدلاً من توسيع نطاق الغموض.
التنفيذ في العالم الحقيقي
ينشر أحد البنوك نموذج تسجيل الائتمان عن طريق كتابة InferenceService YAML مكون من 10 أسطر يشير إلى النموذج في S3، مع تعامل KServe مع القياس التلقائي والدخول.
يستخدم فريق التجارة الإلكترونية عمليات طرح KServe canary لإرسال 10 بالمائة من حركة المرور إلى نموذج توصية جديد، ثم يرتفع إلى 100 بالمائة بمجرد أن تبدو المقاييس سليمة.
يخدم مختبر الأبحاث العشرات من النماذج التي نادرًا ما تستخدم بمقياس مقياس إلى الصفر، لذلك يتم تشغيل كل نموذج فقط عند وصول الطلب ولا يستهلك أي وحدة معالجة رسومات (GPU) عندما يكون في وضع الخمول.
يستخدم فريق MLOps مكون محول KServe لتشغيل تغيير حجم الصورة وتطبيعها قبل أن يقوم المتنبئ بتشغيل نموذج رؤية يخدمه Triton.
أنماط التنفيذ
KServe والعرض النموذجي على Kubernetes في الممارسة العملية
ينشر أحد البنوك نموذج تسجيل الائتمان عن طريق كتابة InferenceService YAML مكون من 10 أسطر يشير إلى النموذج في S3، مع تعامل KServe مع القياس التلقائي والدخول.
ينشر البنك نموذج تسجيل ائتماني عن طريق كتابة InferenceService YAML مكون من 10 أسطر يشير إلى النموذج في S3، مع تعامل KServe مع القياس التلقائي ودخول الفرق عادةً ما تحصل على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتبع كل من مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
KServe والعرض النموذجي على Kubernetes في الممارسة العملية
يستخدم فريق التجارة الإلكترونية عمليات طرح KServe canary لإرسال 10 بالمائة من حركة المرور إلى نموذج توصية جديد، ثم يرتفع إلى 100 بالمائة بمجرد أن تبدو المقاييس سليمة.
يستخدم فريق التجارة الإلكترونية عمليات طرح KServe canary لإرسال 10 بالمائة من حركة المرور إلى نموذج توصية جديد، ثم يرتفع إلى 100 بالمائة بمجرد أن تبدو المقاييس سليمة. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
KServe والعرض النموذجي على Kubernetes في الممارسة العملية
يخدم مختبر الأبحاث العشرات من النماذج التي نادرًا ما تستخدم بمقياس مقياس إلى الصفر، لذلك يتم تشغيل كل نموذج فقط عند وصول الطلب ولا يستهلك أي وحدة معالجة رسومات (GPU) عندما يكون في وضع الخمول.
يخدم مختبر الأبحاث العشرات من النماذج التي نادرًا ما تستخدم بمقياس إلى الصفر، لذلك يتم تشغيل كل نموذج فقط عند وصول الطلب ولا يستهلك أي وحدة معالجة رسومات، بينما تحصل الفرق الخاملة عادةً على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتتبع مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
KServe والعرض النموذجي على Kubernetes في الممارسة العملية
يستخدم فريق MLOps مكون محول KServe لتشغيل تغيير حجم الصورة وتطبيعها قبل أن يقوم المتنبئ بتشغيل نموذج رؤية يخدمه Triton.
يستخدم فريق MLOps مكون محول KServe لتشغيل تغيير حجم الصورة وتطبيعها قبل أن يقوم المتنبئ بتشغيل نموذج رؤية يخدمه Triton. عادةً ما تحصل الفرق على نتائج أفضل عندما تحدد حدود الجودة مقدمًا، وتحتفظ بمسار تصعيد بشري لحالات الحافة، وتتبع كل من مكاسب الإنتاجية وتكاليف الأخطاء بمرور الوقت.
المخاطر والدرابزين
يمكن أن يؤدي تحسين معيار واحد إلى إخفاء نقاط ضعف النظام الأوسع.
غالبًا ما يتم التقليل من تكاليف البنية التحتية والصيانة.
يمكن أن تنمو الفجوات الأمنية وقابلية المراقبة عندما تصبح الأنظمة أكثر تعقيدًا.
خارطة طريق التنفيذ
تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ.
تحديد الكمون والجودة وأهداف التكلفة قبل التنفيذ. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
المعيار في ظل ظروف التحميل والبيانات الواقعية.
المعيار في ظل ظروف التحميل والبيانات الواقعية. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم.
مراقبة الأدوات للأخطاء والانجراف وتأثير المستخدم. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.
قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس.
قم بإعداد مسارات التراجع والاستجابة للحوادث قبل القياس. تعامل مع كل خطوة كبوابة دليل: إذا لم يتم استيفاء المعايير، قم بإيقاف التشغيل مؤقتًا، وسد الفجوة، وبعد ذلك فقط قم بتوسيع الاستخدام.