GUIDE DE L'IA Visuelle

Réseaux résiduels

Les réseaux résiduels (ResNets) sont des réseaux de neurones profonds qui ajoutent des « connexions sautées » permettant aux couches d'apprendre de petits ajustements au lieu de transformations complètes.

Aperçu

Les réseaux résiduels (ResNets) sont des réseaux de neurones profonds qui ajoutent des « connexions sautées » permettant aux couches d'apprendre de petits ajustements au lieu de transformations complètes. Cette astuce simple a permis d’entraîner des réseaux sur des centaines de couches de profondeur, déclenchant ainsi un bond en avant dans la précision de la reconnaissance d’images.

Les réseaux résiduels appartiennent aux flux de travail de vision par ordinateur qui interprètent ou génèrent des médias visuels à des fins d'analyse, d'opérations et de créativité.

Plongée profonde

Avant les ResNets, l’empilement de plusieurs couches rendait paradoxalement les performances des réseaux moins bonnes, même sur les données de formation, un problème appelé dégradation. En 2015, les chercheurs de Microsoft Kaiming He et ses collègues ont introduit le bloc résiduel : au lieu de demander à une pile de couches de produire directement une sortie H(x), ils lui ont laissé apprendre un résidu F(x) = H(x) - x, puis ont ajouté l'entrée d'origine x via un raccourci. Si un calque n'est pas nécessaire, il peut simplement apprendre à ne rien faire (F(x) = 0). ResNet-152 a remporté le concours ImageNet 2015 avec une erreur dans le top 5 d'environ 3,6 %, dépassant les estimations au niveau humain, et son architecture est devenue l'épine dorsale de la détection, de la segmentation et de l'imagerie médicale.

Aperçu technique

La connexion sautée transforme le travail de chaque bloc en y = F(x) + x. Lors de la rétropropagation, le dégradé traverse le raccourci d'identité sans changement, de sorte qu'il ne peut pas disparaître jusqu'à près de zéro, même sur des centaines de couches. Cela permet aux deep stacks de pouvoir être entraînés. Les raccourcis d'identité n'ajoutent aucun paramètre supplémentaire ; ce n'est que lorsque les tailles d'entrée et de sortie diffèrent qu'une petite projection (convolution 1x1) ajuste les dimensions avant l'ajout.

Maîtriser les réseaux résiduels

Les réseaux résiduels (ResNets) sont des réseaux de neurones profonds qui ajoutent des « connexions sautées » permettant aux couches d'apprendre de petits ajustements au lieu de transformations complètes. Cette astuce simple a permis d’entraîner des réseaux sur des centaines de couches de profondeur, déclenchant ainsi un bond en avant dans la précision de la reconnaissance d’images. Les réseaux résiduels appartiennent aux flux de travail de vision par ordinateur qui interprètent ou génèrent des médias visuels à des fins d'analyse, d'opérations et de créativité. Pour acquérir une compréhension approfondie, traitez les réseaux résiduels comme un modèle opérationnel et non comme une fonctionnalité unique : définissez les résultats souhaités, clarifiez les hypothèses et séparez ce que le système peut faire de manière fiable de ce qui nécessite encore un jugement d'expert.

Dans la pratique, les équipes solides qui utilisent les réseaux résiduels équilibrent la précision avec les réalités opérationnelles telles que la qualité des données, la variation de l'éclairage et la cohérence des étiquetages. Ils documentent des critères de réussite explicites, testent par rapport à des données et des flux de travail réalistes et itèrent en fonction des modèles d'échec observés plutôt que des victoires de référence ponctuelles. C’est là que la compréhension théorique se transforme en capacité durable au niveau des produits, des politiques et des opérations.

L’IA visuelle peut automatiser les tâches d’inspection, de détection et de marquage à grande échelle. Dans le même temps, les droits à l’image et le consentement peuvent devenir des risques juridiques si la provenance n’est pas claire. L'approche la plus résiliente consiste à combiner vitesse d'expérimentation et discipline de gouvernance : exécuter des projets pilotes, capturer des preuves, publier des journaux de décision et mettre à jour en permanence les protections à mesure que le comportement du modèle, les attentes des utilisateurs et les exigences réglementaires évoluent.

Impact stratégique

L’IA visuelle peut automatiser les tâches d’inspection, de détection et de marquage à grande échelle.

L’IA visuelle peut automatiser les tâches d’inspection, de détection et de marquage à grande échelle. Dans les déploiements de haute qualité, cela se traduit par des règles de fonctionnement mesurables, des limites de propriété et des rituels d'examen récurrents afin que les équipes puissent accroître la confiance au lieu de l'ambiguïté.

Les équipes créatives peuvent prototyper des concepts plus rapidement avec moins de révisions manuelles.

Les équipes créatives peuvent prototyper des concepts plus rapidement avec moins de révisions manuelles. Dans les déploiements de haute qualité, cela se traduit par des règles de fonctionnement mesurables, des limites de propriété et des rituels d'examen récurrents afin que les équipes puissent accroître la confiance au lieu de l'ambiguïté.

Les opérations peuvent utiliser des signaux d’image et vidéo qui étaient auparavant difficiles à traiter.

Les opérations peuvent utiliser des signaux d’image et vidéo qui étaient auparavant difficiles à traiter. Dans les déploiements de haute qualité, cela se traduit par des règles de fonctionnement mesurables, des limites de propriété et des rituels d'examen récurrents afin que les équipes puissent accroître la confiance au lieu de l'ambiguïté.

L'avenir des réseaux résiduels

Les connexions résiduelles sont désormais quasi universelles : les transformateurs, les modèles de diffusion et les grands modèles de langage les utilisent tous pour stabiliser la formation de piles très profondes. La recherche se poursuit sur des variantes telles que les ResNets de pré-activation, les chemins groupés de ResNeXt et la combinaison d'idées résiduelles avec une formation sans normalisation. Attendez-vous à ce que le principe fondamental de saut de connexion persiste en tant qu'élément de base par défaut, même si les architectures environnantes s'éloignent des convolutions pures pour se tourner vers l'attention et les conceptions hybrides.

Mise en œuvre dans le monde réel

Piliers de classification ImageNet (ResNet-50, ResNet-101) utilisés comme extracteurs de fonctionnalités pré-entraînés pour l'apprentissage par transfert

Détection de tumeurs et de lésions dans les images de radiologie et de pathologie à l'aide d'encodeurs basés sur ResNet

Cadres de détection d'objets et de segmentation d'instances tels que Faster R-CNN et Mask R-CNN qui utilisent les backbones ResNet

Pipelines de perception autonomes qui classent les piétons, les véhicules et les panneaux à partir des cadres de caméras

Modèles de mise en œuvre

Les réseaux résiduels en pratique

Piliers de classification ImageNet (ResNet-50, ResNet-101) utilisés comme extracteurs de fonctionnalités pré-entraînés pour l'apprentissage par transfert.

Les bases de classification ImageNet (ResNet-50, ResNet-101) utilisées comme extracteurs de fonctionnalités pré-entraînés pour l'apprentissage par transfert. Les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin d'escalade humain pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.

Les réseaux résiduels en pratique

Détection de tumeurs et de lésions dans les images de radiologie et de pathologie à l'aide d'encodeurs basés sur ResNet.

Détection de tumeurs et de lésions dans les images radiologiques et pathologiques à l'aide d'encodeurs basés sur ResNet. Les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin de remontée humaine pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.

Les réseaux résiduels en pratique

Des frameworks de détection d'objets et de segmentation d'instances comme Faster R-CNN et Mask R-CNN qui utilisent les backbones ResNet.

Les cadres de détection d'objets et de segmentation d'instances tels que Faster R-CNN et Mask R-CNN qui utilisent les backbones ResNet. Les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin d'escalade humain pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.

Les réseaux résiduels en pratique

Pipelines de perception autonomes qui classent les piétons, les véhicules et les panneaux provenant des cadres de caméra.

Pipelines de perception autonomes qui classent les piétons, les véhicules et les panneaux à partir des images des caméras. Les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin de remontée humain pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.

Risques et garde-fous

!

Les droits à l’image et le consentement peuvent devenir des risques juridiques si la provenance n’est pas claire.

!

Les performances du modèle peuvent varier en fonction de l'éclairage, des données démographiques et des environnements.

!

Les faux positifs peuvent passer inaperçus si les seuils de confiance ne sont pas surveillés.

Feuille de route de mise en œuvre

1

Définissez des critères d’acceptation pour la précision, le rappel et les coûts d’erreur.

Définissez des critères d’acceptation pour la précision, le rappel et les coûts d’erreur. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.

2

Testez avec des données qui correspondent aux conditions de production réelles.

Testez avec des données qui correspondent aux conditions de production réelles. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.

3

Ajoutez un examen humain pour les prédictions peu fiables ou à fort impact.

Ajoutez un examen humain pour les prédictions peu fiables ou à fort impact. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.

4

Suivez la dérive du modèle et revalidez après les modifications de la caméra ou de l’ensemble de données.

Suivez la dérive du modèle et revalidez après les modifications de la caméra ou de l’ensemble de données. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.

Continuez à explorer