Teknik KILAVUZ

Kubernetes'te KServe ve Model Sunumu

KServe, makine öğrenimi modellerini geniş ölçekte sunmaya yönelik standartlaştırılmış, Kubernetes'te yerel bir platformdur.

Genel Bakış

KServe, makine öğrenimi modellerini geniş ölçekte sunmaya yönelik standartlaştırılmış, Kubernetes'te yerel bir platformdur. Ekiplere otomatik ölçeklendirme, kanarya dağıtımları ve sıfıra ölçeklendirme özellikleriyle modelleri dağıtmak için tek ve bildirime dayalı bir yol sunarak Kubernetes tesisatının çoğunu ortadan kaldırır.

Kubernetes'te KServe ve Model Hizmeti, model kalitesini, altyapı maliyetini, gecikmeyi ve güvenilirliği geniş ölçekte etkileyen teknik bir yapı taşıdır.

Derin Dalış

Eskiden KFServing olarak bilinen ve Kubeflow projesinden doğan KServe, bir InferenceService özel kaynağı tanımlar. Nesne depolamasında (S3, GCS, Azure Blob) depolanan bir modele işaret eden kısa bir YAML dosyası yazarsınız ve gerisini KServe halleder. Hem tahmine dayalı çıkarımı hem de giderek artan şekilde üretken LLM hizmetini destekler. KServe, ortak çerçeveler (TensorFlow Serving, TorchServe, Triton, scikit-learn, XGBoost, Hugging Face) için önceden oluşturulmuş 'sunum çalışma zamanları' sunar ve özel konteynerleri destekler. Knative Serving ve bir ağ katmanı (Istio veya benzeri) üzerine inşa edilmiş olup, gerçek sıfıra ölçeklendirme de dahil olmak üzere istek odaklı otomatik ölçeklendirme sağlar, böylece boşta kalan modeller bilgi işlem tüketmez. Ayrıca, tahmin API'sini Açık Çıkarım Protokolü çevresinde standartlaştırır, böylece istemciler çerçeveden bağımsız olarak her modelle aynı şekilde konuşur.

Teknik Bilgi

KServe'in otomatik ölçeklendirmesi, eş zamanlılığa veya saniye başına isteklere göre kopya sayısını ölçeklendiren ve trafik durduğunda kopyaları sıfıra düşürebilen, ardından talep üzerine soğuk başlatabilen Knative'e dayanır. InferenceService, tahmin edici, dönüştürücü (işleme öncesi/sonrası) ve açıklayıcı bileşenlere tam bir çıkarım hattını soyutlar. Modeller, başlangıçta yapıları bölmeye çeken 'depolama başlatıcıları' aracılığıyla nesne deposundan yüklenir ve model depolamayı servis konteyneri görüntüsünden ayırır.

Kubernetes'te KServe ve Model Sunumunda Uzmanlaşma

KServe, makine öğrenimi modellerini geniş ölçekte sunmaya yönelik standartlaştırılmış, Kubernetes'te yerel bir platformdur. Ekiplere otomatik ölçeklendirme, kanarya dağıtımları ve sıfıra ölçeklendirme özellikleriyle modelleri dağıtmak için tek ve bildirime dayalı bir yol sunarak Kubernetes tesisatının çoğunu ortadan kaldırır. Kubernetes'te KServe ve Model Hizmeti, model kalitesini, altyapı maliyetini, gecikmeyi ve güvenilirliği geniş ölçekte etkileyen teknik bir yapı taşıdır. Derin bir anlayış oluşturmak için Kubernetes'te KServe ve Model Hizmetini tek bir özellik olarak değil, bir işletim modeli olarak ele alın: istenen sonuçları tanımlayın, varsayımları netleştirin ve sistemin güvenilir bir şekilde yapabileceklerini hâlâ uzman görüşü gerektiren şeylerden ayırın.

Uygulamada, Kubernetes üzerinde KServe ve Model Serving'i kullanan güçlü ekipler, güvenilirlik ve maliyete göre mimariyi, verileri ve altyapı seçeneklerini optimize eder. Açık başarı kriterlerini belgeliyorlar, gerçekçi verilere ve iş akışlarına göre test ediyorlar ve tek seferlik kıyaslama kazanımları yerine gözlemlenen başarısızlık modellerine dayalı olarak yineleniyorlar. Burası teorik anlayışın ürün, politika ve operasyonlar genelinde dayanıklı yeteneğe dönüştüğü yerdir.

Mimari kararlar yıllarca performansı ve işletme maliyetini etkiler. Aynı zamanda, bir kıyaslamayı optimize etmek daha geniş sistem zayıflıklarını gizleyebilir. En dayanıklı yaklaşım, deneme hızını yönetişim disiplini ile birleştirmektir: pilot uygulamaları çalıştırın, kanıtları toplayın, karar günlüklerini yayınlayın ve model davranışı, kullanıcı beklentileri ve düzenleyici gereksinimler geliştikçe koruma önlemlerini sürekli olarak güncelleyin.

Stratejik Etki

Mimari kararlar yıllarca performansı ve işletme maliyetini etkiler.

Mimari kararlar yıllarca performansı ve işletme maliyetini etkiler. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.

Teknik eğitim, ekiplerin yalnızca en yenisini değil, doğru yığını seçmesine de yardımcı olur.

Teknik eğitim, ekiplerin yalnızca en yenisini değil, doğru yığını seçmesine de yardımcı olur. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.

Daha iyi mühendislik seçenekleri, üretimdeki güvenilirlik olaylarını azaltır.

Daha iyi mühendislik seçenekleri, üretimdeki güvenilirlik olaylarını azaltır. Yüksek kaliteli dağıtımlarda bu, ölçülebilir işletim kurallarına, sahiplik sınırlarına ve yinelenen inceleme ritüellerine dönüştürülür, böylece ekipler belirsizliği ölçeklendirmek yerine güveni ölçeklendirebilir.

Kubernetes'te KServe ve Model Sunumunun Geleceği

KServe hızla üretken yapay zekaya doğru evriliyor ve büyük dil modelleri için KV önbellek farkındalığına sahip yönlendirme, model önbelleğe alma ve ayrıştırılmış önceden doldurma/kod çözme hizmeti gibi özelliklere sahip LLM odaklı bir parça ekliyor. vLLM gibi çıkarım motorlarıyla daha derin entegrasyon, tek GPU için fazla büyük modeller için daha iyi çoklu düğüm hizmeti ve belirteç tabanlı yük dengeleme için ağ geçidi düzeyinde yönlendirme bekleyebilirsiniz. CNCF kuluçka projesi olarak, modelleri Kubernetes'in arkasına koymak için fiili açık standart haline geliyor ve araştırma eserleri ile dayanıklı üretim uç noktaları arasındaki boşluğu daraltıyor.

Gerçek Dünya Uygulaması

Bir banka, S3'teki modele işaret eden 10 satırlık bir InferenceService YAML yazarak, KServe otomatik ölçeklendirmeyi ve girişi yöneterek bir kredi puanlama modeli dağıtır.

Bir e-ticaret ekibi, trafiğin yüzde 10'unu yeni bir öneri modeline göndermek için KServe kanarya dağıtımlarını kullanıyor, ardından ölçümler sağlıklı göründüğünde bu oran yüzde 100'e çıkıyor.

Bir araştırma laboratuvarı sıfıra kadar ölçeklendirmeyle nadiren kullanılan düzinelerce modele hizmet verir, böylece her model yalnızca bir istek geldiğinde çalışır ve boştayken GPU tüketmez.

Bir MLOps ekibi, tahminci Triton tarafından sunulan bir görüntü modelini çalıştırmadan önce görüntünün yeniden boyutlandırılmasını ve normalleştirilmesini çalıştırmak için bir KServe transformatör bileşenini kullanıyor.

Uygulama Modelleri

Uygulamada Kubernetes'te KServe ve Model Sunumu

Bir banka, S3'teki modele işaret eden 10 satırlık bir InferenceService YAML yazarak, KServe otomatik ölçeklendirmeyi ve girişi yöneterek bir kredi puanlama modeli dağıtır.

Bir banka, S3'teki modele işaret eden 10 satırlık bir InferenceService YAML yazarak bir kredi puanlama modeli dağıtır; KServe otomatik ölçeklendirmeyi ve girişi yönetir. Ekipler genellikle kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolunu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

Uygulamada Kubernetes'te KServe ve Model Sunumu

Bir e-ticaret ekibi, trafiğin yüzde 10'unu yeni bir öneri modeline göndermek için KServe kanarya dağıtımlarını kullanıyor, ardından ölçümler sağlıklı göründüğünde bu oran yüzde 100'e çıkıyor.

Bir e-ticaret ekibi, trafiğin yüzde 10'unu yeni bir öneri modeline göndermek için KServe kanarya dağıtımlarını kullanıyor, ardından ölçümler sağlıklı göründüğünde yüzde 100'e yükseliyor. Ekipler genellikle kalite eşiklerini önceden belirlediklerinde, uç durumlar için insani bir yükseltme yolunu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

Uygulamada Kubernetes'te KServe ve Model Sunumu

Bir araştırma laboratuvarı sıfıra kadar ölçeklendirmeyle nadiren kullanılan düzinelerce modele hizmet verir, böylece her model yalnızca bir istek geldiğinde çalışır ve boştayken GPU tüketmez.

Bir araştırma laboratuvarı, sıfıra ölçeklendirmeyle nadiren kullanılan düzinelerce model sunar; böylece her model yalnızca bir istek geldiğinde çalışır ve GPU tüketmez; boşta kalan Ekipler ise genellikle kalite eşiklerini önceden tanımladıklarında, uç durumlar için insani bir yükseltme yolu tuttuklarında ve hem üretkenlik kazanımlarını hem de zaman içindeki hata maliyetlerini izlediklerinde daha iyi sonuçlar elde ederler.

Uygulamada Kubernetes'te KServe ve Model Sunumu

Bir MLOps ekibi, tahminci Triton tarafından sunulan bir görüntü modelini çalıştırmadan önce görüntünün yeniden boyutlandırılmasını ve normalleştirilmesini çalıştırmak için bir KServe transformatör bileşenini kullanıyor.

Bir MLOps ekibi, tahminci Triton tarafından sunulan bir görüntü modelini çalıştırmadan önce görüntü yeniden boyutlandırma ve normalleştirmeyi çalıştırmak için bir KServe transformatör bileşenini kullanır. Ekipler genellikle kalite eşiklerini önceden tanımladıklarında, uç durumlar için insani bir yükseltme yolunu tuttuklarında ve zaman içinde hem üretkenlik kazanımlarını hem de hata maliyetlerini takip ettiklerinde daha iyi sonuçlar elde ederler.

Riskler ve Korkuluklar

!

Bir kıyaslamayı optimize etmek daha geniş sistem zayıflıklarını gizleyebilir.

!

Altyapı ve bakım maliyetleri genellikle hafife alınır.

!

Sistemler karmaşıklaştıkça güvenlik ve gözlemlenebilirlik boşlukları büyüyebilir.

Uygulama Yol Haritası

1

Uygulamadan önce gecikmeyi, kaliteyi ve maliyet hedeflerini tanımlayın.

Uygulamadan önce gecikmeyi, kaliteyi ve maliyet hedeflerini tanımlayın. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

2

Gerçekçi yük ve veri koşulları altında kıyaslama yapın.

Gerçekçi yük ve veri koşulları altında kıyaslama yapın. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

3

Hatalar, sapmalar ve kullanıcı etkisi için cihaz izleme.

Hatalar, sapmalar ve kullanıcı etkisi için cihaz izleme. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

4

Ölçeklendirmeden önce geri alma ve olay müdahale yollarını hazırlayın.

Ölçeklendirmeden önce geri alma ve olay müdahale yollarını hazırlayın. Her adımı bir kanıt kapısı olarak değerlendirin: Kriterler karşılanmazsa, kullanıma sunumu duraklatın, boşluğu kapatın ve ancak bundan sonra kullanımı genişletin.

Keşfetmeye Devam Edin