Guide KServe et Model Serving sur Kubernetes

Aperçu

KServe est une plateforme standardisée et native de Kubernetes permettant de servir des modèles d'apprentissage automatique à grande échelle. Il offre aux équipes un moyen unique et déclaratif de déployer des modèles avec mise à l'échelle automatique, déploiements Canary et mise à l'échelle jusqu'à zéro, éliminant ainsi la majeure partie de la plomberie Kubernetes.

KServe et Model Serving sur Kubernetes constituent un élément de base technique qui affecte la qualité du modèle, le coût de l'infrastructure, la latence et la fiabilité à grande échelle.

Plongée profonde

Anciennement connu sous le nom de KFServing et né du projet Kubeflow, KServe définit une ressource personnalisée InferenceService. Vous écrivez un court fichier YAML pointant vers un modèle stocké dans le stockage d'objets (S3, GCS, Azure Blob) et KServe gère le reste. Il prend en charge à la fois l'inférence prédictive et, de plus en plus, le service LLM génératif. KServe fournit des « environnements d'exécution de service » prédéfinis pour les frameworks courants (TensorFlow Serving, TorchServe, Triton, scikit-learn, XGBoost, Hugging Face) et prend en charge les conteneurs personnalisés. Construit sur Knative Serving et une couche réseau (Istio ou similaire), il fournit une mise à l'échelle automatique basée sur les requêtes, y compris une véritable mise à l'échelle jusqu'à zéro, de sorte que les modèles inactifs ne consomment aucun calcul. Il standardise également l'API de prédiction autour du protocole Open Inference, afin que les clients communiquent avec chaque modèle de la même manière, quel que soit le framework.

Aperçu technique

La mise à l'échelle automatique de KServe s'appuie sur Knative, qui adapte le nombre de répliques en fonction de la concurrence ou du nombre de requêtes par seconde et peut tomber à zéro réplique lorsque le trafic s'arrête, puis démarrer à froid à la demande. InferenceService résume un pipeline d'inférence complet en composants prédicteurs, transformateurs (pré/post-traitement) et explicatifs. Les modèles se chargent à partir du stockage d'objets via des « initialiseurs de stockage » qui extraient les artefacts dans le pod au démarrage, dissociant ainsi le stockage du modèle de l'image du conteneur de service.

Maîtriser KServe et Model Serving sur Kubernetes

KServe est une plateforme standardisée et native de Kubernetes permettant de servir des modèles d'apprentissage automatique à grande échelle. Il offre aux équipes un moyen unique et déclaratif de déployer des modèles avec mise à l'échelle automatique, déploiements Canary et mise à l'échelle jusqu'à zéro, éliminant ainsi la majeure partie de la plomberie Kubernetes. KServe et Model Serving sur Kubernetes constituent un élément de base technique qui affecte la qualité du modèle, le coût de l'infrastructure, la latence et la fiabilité à grande échelle. Pour acquérir une compréhension approfondie, traitez KServe et Model Serving sur Kubernetes comme un modèle opérationnel et non comme une seule fonctionnalité : définissez les résultats souhaités, clarifiez les hypothèses et séparez ce que le système peut faire de manière fiable de ce qui nécessite encore un jugement d'expert.

Dans la pratique, des équipes solides utilisant KServe et Model Serving sur Kubernetes optimisent les choix d'architecture, de données et d'infrastructure en fonction de la fiabilité et des coûts. Ils documentent des critères de réussite explicites, testent par rapport à des données et des flux de travail réalistes et itèrent en fonction des modèles d'échec observés plutôt que des victoires de référence ponctuelles. C’est là que la compréhension théorique se transforme en capacité durable au niveau des produits, des politiques et des opérations.

Les décisions en matière d'architecture déterminent les performances et les coûts d'exploitation pendant des années. Dans le même temps, l’optimisation d’un benchmark peut masquer des faiblesses plus larges du système. L'approche la plus résiliente consiste à combiner vitesse d'expérimentation et discipline de gouvernance : exécuter des projets pilotes, capturer des preuves, publier des journaux de décision et mettre à jour en permanence les protections à mesure que le comportement du modèle, les attentes des utilisateurs et les exigences réglementaires évoluent.

Impact stratégique

Les décisions en matière d'architecture déterminent les performances et les coûts d'exploitation pendant des années.

Les décisions en matière d'architecture déterminent les performances et les coûts d'exploitation pendant des années. Dans les déploiements de haute qualité, cela se traduit par des règles de fonctionnement mesurables, des limites de propriété et des rituels d'examen récurrents afin que les équipes puissent accroître la confiance au lieu de l'ambiguïté.

La formation technique aide les équipes à choisir la bonne pile, pas seulement la plus récente.

La formation technique aide les équipes à choisir la bonne pile, pas seulement la plus récente. Dans les déploiements de haute qualité, cela se traduit par des règles de fonctionnement mesurables, des limites de propriété et des rituels d'examen récurrents afin que les équipes puissent accroître la confiance au lieu de l'ambiguïté.

De meilleurs choix d’ingénierie réduisent les incidents de fiabilité en production.

De meilleurs choix d’ingénierie réduisent les incidents de fiabilité en production. Dans les déploiements de haute qualité, cela se traduit par des règles de fonctionnement mesurables, des limites de propriété et des rituels d'examen récurrents afin que les équipes puissent accroître la confiance au lieu de l'ambiguïté.

L'avenir de KServe et du Model Serving sur Kubernetes

KServe évolue rapidement vers l'IA générative, en ajoutant une piste axée sur le LLM avec des fonctionnalités telles que le routage prenant en compte le cache KV, la mise en cache des modèles et le service de pré-remplissage/décodage désagrégé pour les grands modèles de langage. Attendez-vous à une intégration plus approfondie avec des moteurs d'inférence tels que vLLM, à un meilleur service multi-nœuds pour les modèles trop volumineux pour un seul GPU et à un routage au niveau de la passerelle pour l'équilibrage de charge basé sur des jetons. En tant que projet incubateur du CNCF, il devient de facto le standard ouvert pour mettre des modèles derrière Kubernetes, réduisant ainsi l'écart entre les artefacts de recherche et les points finaux de production résilients.

Mise en œuvre dans le monde réel

Une banque déploie un modèle de notation de crédit en écrivant un YAML InferenceService de 10 lignes pointant vers le modèle dans S3, avec KServe gérant la mise à l'échelle automatique et l'entrée.

Une équipe de commerce électronique utilise les déploiements KServe Canary pour envoyer 10 % du trafic vers un nouveau modèle de recommandation, puis passe à 100 % une fois que les mesures semblent saines.

Un laboratoire de recherche gère des dizaines de modèles rarement utilisés avec une mise à l'échelle jusqu'à zéro, de sorte que chaque modèle ne démarre que lorsqu'une demande arrive et ne consomme aucun GPU lorsqu'il est inactif.

Une équipe MLOps utilise un composant de transformateur KServe pour exécuter le redimensionnement et la normalisation de l'image avant que le prédicteur n'exécute un modèle de vision servi par Triton.

Modèles de mise en œuvre

KServe et Model Serving sur Kubernetes en pratique

Une banque déploie un modèle de notation de crédit en écrivant un YAML InferenceService de 10 lignes pointant vers le modèle dans S3, avec KServe gérant la mise à l'échelle automatique et l'entrée.

Une banque déploie un modèle de notation de crédit en écrivant un YAML InferenceService de 10 lignes pointant vers le modèle dans S3, avec KServe gérant la mise à l'échelle automatique et l'entrée. Les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin d'escalade humain pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.

KServe et Model Serving sur Kubernetes en pratique

Une équipe de commerce électronique utilise les déploiements KServe Canary pour envoyer 10 % du trafic vers un nouveau modèle de recommandation, puis passe à 100 % une fois que les mesures semblent saines.

Une équipe de commerce électronique utilise les déploiements KServe Canary pour envoyer 10 % du trafic vers un nouveau modèle de recommandation, puis passe à 100 % une fois que les mesures semblent saines. Les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin d'escalade humain pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.

KServe et Model Serving sur Kubernetes en pratique

Un laboratoire de recherche gère des dizaines de modèles rarement utilisés avec une mise à l'échelle jusqu'à zéro, de sorte que chaque modèle ne démarre que lorsqu'une demande arrive et ne consomme aucun GPU lorsqu'il est inactif.

Un laboratoire de recherche gère des dizaines de modèles rarement utilisés avec une mise à l'échelle jusqu'à zéro, de sorte que chaque modèle ne démarre que lorsqu'une demande arrive et ne consomme aucun GPU, tandis que les équipes inactives obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin d'escalade humain pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.

KServe et Model Serving sur Kubernetes en pratique

Une équipe MLOps utilise un composant de transformateur KServe pour exécuter le redimensionnement et la normalisation de l'image avant que le prédicteur n'exécute un modèle de vision servi par Triton.

Une équipe MLOps utilise un composant de transformation KServe pour exécuter le redimensionnement et la normalisation de l'image avant que le prédicteur n'exécute un modèle de vision servi par Triton. Les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin d'escalade humaine pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.

Risques et garde-fous

!

L’optimisation d’un benchmark peut masquer des faiblesses plus larges du système.

!

Les coûts d’infrastructure et de maintenance sont souvent sous-estimés.

!

Les lacunes en matière de sécurité et d’observabilité peuvent se creuser à mesure que les systèmes deviennent plus complexes.

Feuille de route de mise en œuvre

1

Définissez les objectifs de latence, de qualité et de coût avant la mise en œuvre.

Définissez les objectifs de latence, de qualité et de coût avant la mise en œuvre. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.

2

Benchmark dans des conditions de charge et de données réalistes.

Benchmark dans des conditions de charge et de données réalistes. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.

3

Surveillance des instruments pour détecter les erreurs, la dérive et l'impact sur l'utilisateur.

Surveillance des instruments pour détecter les erreurs, la dérive et l'impact sur l'utilisateur. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.

4

Préparez les chemins de restauration et de réponse aux incidents avant la mise à l’échelle.

Préparez les chemins de restauration et de réponse aux incidents avant la mise à l’échelle. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.

Continuez à explorer

Repères d'IA

Utilisez l’évaluation correctement lorsque vous comparez les options techniques.

Lire le guide

Apprentissage par renforcement

Approfondissez les stratégies de formation technique.

Lire le guide