GUIDE Technique

Formation de précision mixte

L'entraînement de précision mixte accélère l'entraînement du réseau neuronal et réduit l'utilisation de la mémoire en effectuant la plupart des calculs en virgule flottante 16 bits au lieu de 32 bits.

Aperçu

L'entraînement de précision mixte accélère l'entraînement du réseau neuronal et réduit l'utilisation de la mémoire en effectuant la plupart des calculs en virgule flottante 16 bits au lieu de 32 bits. Il permet au même GPU d’entraîner des modèles plus gros plus rapidement, sans pratiquement aucune perte de précision.

La formation de précision mixte est un élément technique qui affecte la qualité du modèle, le coût de l'infrastructure, la latence et la fiabilité à grande échelle.

Plongée profonde

La formation traditionnelle stocke les poids et exécute les mathématiques en virgule flottante 32 bits (FP32). La précision mixte utilise des formats 16 bits de moindre précision (FP16 ou bfloat16) pour les multiplications matricielles lourdes, tout en conservant une « copie principale » 32 bits des poids pour des mises à jour stables. Étant donné que les nombres 16 bits sont deux fois plus petits, ils tiennent davantage dans la mémoire GPU et les cœurs Tensor les traitent environ 2 à 8 fois plus rapidement. Le problème est la plage étroite du FP16 : de minuscules gradients peuvent descendre jusqu'à zéro. La solution standard est la mise à l'échelle des pertes, qui multiplie la perte par un facteur important avant la rétropropagation afin que les petits gradients restent représentables, puis la divise avant la mise à jour du poids. Apex de NVIDIA et AMP (Automatic Mixed Precision) intégré dans PyTorch et TensorFlow automatisent cela.

Aperçu technique

FP16 n'a que 5 bits d'exposant, ce qui donne une petite plage dynamique qui provoque un dépassement inférieur du gradient. Bfloat16 conserve 8 bits d'exposant (correspondant à la plage du FP32) mais moins de bits de mantisse, il a donc rarement besoin d'une mise à l'échelle des pertes - une raison principale pour laquelle les TPU Google et les GPU modernes le privilégient. Les cœurs Tensor accélèrent le travail en multipliant les opérandes de 16 bits mais en accumulant des sommes partielles dans FP32, préservant ainsi la précision là où les erreurs de sommation s'aggraveraient autrement.

Maîtriser l’entraînement de précision mixte

L'entraînement de précision mixte accélère l'entraînement du réseau neuronal et réduit l'utilisation de la mémoire en effectuant la plupart des calculs en virgule flottante 16 bits au lieu de 32 bits. Il permet au même GPU d’entraîner des modèles plus gros plus rapidement, sans pratiquement aucune perte de précision. La formation de précision mixte est un élément technique qui affecte la qualité du modèle, le coût de l'infrastructure, la latence et la fiabilité à grande échelle. Pour acquérir une compréhension approfondie, traitez la formation de précision mixte comme un modèle opérationnel et non comme une fonctionnalité unique : définissez les résultats souhaités, clarifiez les hypothèses et séparez ce que le système peut faire de manière fiable de ce qui nécessite encore un jugement d'expert.

Dans la pratique, des équipes solides utilisant Mixed Precision Training optimisent les choix d’architecture, de données et d’infrastructure en fonction de la fiabilité et des coûts. Ils documentent des critères de réussite explicites, testent par rapport à des données et des flux de travail réalistes et itèrent en fonction des modèles d'échec observés plutôt que des victoires de référence ponctuelles. C’est là que la compréhension théorique se transforme en capacité durable au niveau des produits, des politiques et des opérations.

Les décisions en matière d'architecture déterminent les performances et les coûts d'exploitation pendant des années. Dans le même temps, l’optimisation d’un benchmark peut masquer des faiblesses plus larges du système. L'approche la plus résiliente consiste à combiner vitesse d'expérimentation et discipline de gouvernance : exécuter des projets pilotes, capturer des preuves, publier des journaux de décision et mettre à jour en permanence les protections à mesure que le comportement du modèle, les attentes des utilisateurs et les exigences réglementaires évoluent.

Impact stratégique

Les décisions en matière d'architecture déterminent les performances et les coûts d'exploitation pendant des années.

Les décisions en matière d'architecture déterminent les performances et les coûts d'exploitation pendant des années. Dans les déploiements de haute qualité, cela se traduit par des règles de fonctionnement mesurables, des limites de propriété et des rituels d'examen récurrents afin que les équipes puissent accroître la confiance au lieu de l'ambiguïté.

La formation technique aide les équipes à choisir la bonne pile, pas seulement la plus récente.

La formation technique aide les équipes à choisir la bonne pile, pas seulement la plus récente. Dans les déploiements de haute qualité, cela se traduit par des règles de fonctionnement mesurables, des limites de propriété et des rituels d'examen récurrents afin que les équipes puissent accroître la confiance au lieu de l'ambiguïté.

De meilleurs choix d’ingénierie réduisent les incidents de fiabilité en production.

De meilleurs choix d’ingénierie réduisent les incidents de fiabilité en production. Dans les déploiements de haute qualité, cela se traduit par des règles de fonctionnement mesurables, des limites de propriété et des rituels d'examen récurrents afin que les équipes puissent accroître la confiance au lieu de l'ambiguïté.

L’avenir de la formation de précision mixte

La précision ne cesse de baisser. La formation FP8, prise en charge sur les GPU NVIDIA Hopper et Blackwell, devient la norme pour les modèles frontières, et la recherche sur les formats FP4 et microscaling (MXFP) va plus loin. Attendez-vous à ce que les frameworks sélectionnent automatiquement la précision par couche, le matériel gère nativement des formats toujours plus restreints et la formation prenant en compte la quantification pour brouiller la frontière entre la formation de faible précision et l'inférence, réduisant ainsi le coût de formation de modèles comportant des milliards de paramètres.

Mise en œuvre dans le monde réel

torch.cuda.amp.autocast de PyTorch encapsulant une boucle d'entraînement pour réduire de moitié environ la mémoire et doubler le débit sur un seul GPU

Entraîner des modèles de langage volumineux tels que des transformateurs de style GPT dans bfloat16 sur des TPU pour éviter le réglage de la mise à l'échelle des pertes

Adaptation d'une taille de lot plus grande sur un GPU RTX grand public en faisant passer la formation d'images ResNet du FP32 au FP16

Précision mixte FP8 sur les GPU NVIDIA H100 pour réduire le coût de pré-entraînement des modèles à l'échelle frontière

Modèles de mise en œuvre

Entraînement de précision mixte en pratique

torch.cuda.amp.autocast de PyTorch encapsule une boucle de formation pour réduire de moitié environ la mémoire et doubler le débit sur un seul GPU.

Torch.cuda.amp.autocast de PyTorch encapsule une boucle de formation pour réduire de moitié environ la mémoire et doubler le débit sur un seul GPU. Les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin d'escalade humaine pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.

Entraînement de précision mixte en pratique

Entraîner des modèles de langage volumineux tels que des transformateurs de style GPT dans bfloat16 sur des TPU pour éviter le réglage de la mise à l'échelle des pertes.

Entraîner de grands modèles de langage tels que des transformateurs de style GPT dans bfloat16 sur des TPU pour éviter le réglage de la mise à l'échelle des pertes. Les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin d'escalade humaine pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.

Entraînement de précision mixte en pratique

Adaptation d'une taille de lot plus grande sur un GPU RTX grand public en faisant passer la formation d'images ResNet de FP32 à FP16.

Ajuster une taille de lot plus grande sur un GPU RTX grand public en faisant passer la formation d'images ResNet du FP32 au FP16. Les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin d'escalade humaine pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.

Entraînement de précision mixte en pratique

Précision mixte FP8 sur les GPU NVIDIA H100 pour réduire le coût de pré-entraînement des modèles à l'échelle frontière.

Précision mixte FP8 sur les GPU NVIDIA H100 pour réduire le coût de pré-entraînement des modèles à l'échelle de la frontière. Les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin d'escalade humain pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.

Risques et garde-fous

!

L’optimisation d’un benchmark peut masquer des faiblesses plus larges du système.

!

Les coûts d’infrastructure et de maintenance sont souvent sous-estimés.

!

Les lacunes en matière de sécurité et d’observabilité peuvent se creuser à mesure que les systèmes deviennent plus complexes.

Feuille de route de mise en œuvre

1

Définissez les objectifs de latence, de qualité et de coût avant la mise en œuvre.

Définissez les objectifs de latence, de qualité et de coût avant la mise en œuvre. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.

2

Benchmark dans des conditions de charge et de données réalistes.

Benchmark dans des conditions de charge et de données réalistes. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.

3

Surveillance des instruments pour détecter les erreurs, la dérive et l'impact sur l'utilisateur.

Surveillance des instruments pour détecter les erreurs, la dérive et l'impact sur l'utilisateur. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.

4

Préparez les chemins de restauration et de réponse aux incidents avant la mise à l’échelle.

Préparez les chemins de restauration et de réponse aux incidents avant la mise à l’échelle. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.

Continuez à explorer