GUIDE DES ENTREPRISES

Imprégnez les agents de raisonnement

Imbue est un laboratoire d'IA qui crée des agents capables de raisonner, de coder et d'agir de manière suffisamment robuste pour se voir confier des tâches réelles.

Aperçu

Imbue est un laboratoire d'IA qui crée des agents capables de raisonner, de coder et d'agir de manière suffisamment robuste pour se voir confier des tâches réelles. C’est important parce que la fiabilité – et pas seulement l’intelligence brute – est le goulot d’étranglement qui empêche les agents d’IA d’effectuer un travail utile en plusieurs étapes sans supervision constante.

Imbue Reasoning Agents est mieux compris dans le contexte de la stratégie, de l'accès aux modèles, des décisions de plateforme et des partenariats écosystémiques.

Plongée profonde

Imbue, anciennement connu sous le nom de General Intelligent, est dirigé par le PDG Kanjun Qiu et a levé plus de 200 millions de dollars en 2023 pour une valorisation d'environ un milliard de dollars, soutenu par des investisseurs dont Nvidia. Plutôt que de rechercher le plus grand modèle possible, Imbue se concentre sur des agents qui raisonnent de manière fiable et peuvent vérifier leur propre travail. La société est célèbre pour avoir formé un modèle de 70 milliards de paramètres à partir de zéro sur son propre cluster de calcul et publié des notes d'ingénierie inhabituellement détaillées sur l'expérience. Ses recherches mettent l'accent sur le raisonnement, la robustesse et les outils permettant aux agents de vérifier si leurs actions ont réellement réussi. L’objectif à long terme est d’avoir des agents d’IA personnels auxquels les gens peuvent faire confiance pour gérer des tâches conséquentes, en mettant explicitement l’accent sur l’action des utilisateurs et la vérifiabilité plutôt que sur une automatisation opaque.

Aperçu technique

Le pari d'Imbue est que les agents de raisonnement doivent être vérifiables, pas seulement fluides. Cela signifie générer des étapes intermédiaires, exécuter des appels de code ou d'outil, observer les résultats réels et s'auto-corriger lorsqu'une action échoue – boucler la boucle au lieu de produire une réponse plausible d'un seul coup. Leur formation 70B à partir de zéro consistait en partie à contrôler la pile complète afin qu'ils puissent optimiser spécifiquement pour un raisonnement minutieux et vérifiable plutôt que de s'appuyer sur un modèle de base générique.

Maîtriser les agents de raisonnement imprégnés

Imbue est un laboratoire d'IA qui crée des agents capables de raisonner, de coder et d'agir de manière suffisamment robuste pour se voir confier des tâches réelles. C’est important parce que la fiabilité – et pas seulement l’intelligence brute – est le goulot d’étranglement qui empêche les agents d’IA d’effectuer un travail utile en plusieurs étapes sans supervision constante. Imbue Reasoning Agents est mieux compris dans le contexte de la stratégie, de l'accès aux modèles, des décisions de plateforme et des partenariats écosystémiques. Pour développer une compréhension approfondie, traitez les agents de raisonnement Imbue comme un modèle opérationnel et non comme une fonctionnalité unique : définissez les résultats souhaités, clarifiez les hypothèses et séparez ce que le système peut faire de manière fiable de ce qui nécessite encore un jugement d'expert.

Dans la pratique, des équipes solides utilisant les agents Imbue Reasoning évaluent la stratégie du fournisseur, la fiabilité de la feuille de route et le risque de verrouillage avant de s'engager. Ils documentent des critères de réussite explicites, testent par rapport à des données et des flux de travail réalistes et itèrent en fonction des modèles d'échec observés plutôt que des victoires de référence ponctuelles. C’est là que la compréhension théorique se transforme en capacité durable au niveau des produits, des politiques et des opérations.

Les feuilles de route des fournisseurs influencent les fonctionnalités que votre équipe peut ensuite créer. Dans le même temps, les annonces de lancement peuvent dépasser la stabilité des flux de production réels. L'approche la plus résiliente consiste à combiner vitesse d'expérimentation et discipline de gouvernance : exécuter des projets pilotes, capturer des preuves, publier des journaux de décision et mettre à jour en permanence les protections à mesure que le comportement du modèle, les attentes des utilisateurs et les exigences réglementaires évoluent.

Impact stratégique

Les feuilles de route des fournisseurs influencent les fonctionnalités que votre équipe peut ensuite créer.

Les feuilles de route des fournisseurs influencent les fonctionnalités que votre équipe peut ensuite créer. Dans les déploiements de haute qualité, cela se traduit par des règles de fonctionnement mesurables, des limites de propriété et des rituels d'examen récurrents afin que les équipes puissent accroître la confiance au lieu de l'ambiguïté.

Les conditions commerciales et les options de déploiement affectent les coûts et les risques à long terme.

Les conditions commerciales et les options de déploiement affectent les coûts et les risques à long terme. Dans les déploiements de haute qualité, cela se traduit par des règles de fonctionnement mesurables, des limites de propriété et des rituels d'examen récurrents afin que les équipes puissent accroître la confiance au lieu de l'ambiguïté.

Les incitations des entreprises façonnent les défauts des produits, la posture de sécurité et l’ouverture.

Les incitations des entreprises façonnent les défauts des produits, la posture de sécurité et l’ouverture. Dans les déploiements de haute qualité, cela se traduit par des règles de fonctionnement mesurables, des limites de propriété et des rituels d'examen récurrents afin que les équipes puissent accroître la confiance au lieu de l'ambiguïté.

L’avenir des agents de raisonnement imprégnés

La frontière pour les agents passe de réponses ponctuelles à une fiabilité à long terme : des agents qui planifient, agissent en plusieurs étapes, se remettent des erreurs et savent quand demander à un humain. Attendez-vous à mettre davantage l’accent sur la vérification, l’utilisation d’outils en mode bac à sable et la transparence afin que les utilisateurs puissent vérifier ce qu’un agent a fait. Si des laboratoires comme Imbue réussissent, des agents personnels dignes de confiance pourraient gérer la recherche, le codage et les tâches administratives, mais le plus difficile reste d'éviter les erreurs confiantes sur les actions qui en découlent.

Mise en œuvre dans le monde réel

Un agent écrit du code, exécute la suite de tests, lit les échecs et corrige ses propres bogues avant de rendre le travail.

Un assistant de recherche divise une vague demande en sous-questions, rassemble des preuves et vérifie chaque résultat plutôt que de deviner.

Un agent personnel rédige et réconcilie un plan complexe en plusieurs étapes, signalant les points où il est incertain et nécessite l'approbation humaine.

Les outils internes permettent à un agent de confirmer si chaque action a réellement modifié l'état du système, au lieu de supposer qu'elle a réussi.

Modèles de mise en œuvre

Imprégner les agents de raisonnement dans la pratique

Un agent écrit du code, exécute la suite de tests, lit les échecs et corrige ses propres bogues avant de rendre le travail.

Un agent écrit du code, exécute la suite de tests, lit les échecs et corrige ses propres bogues avant de rendre le travail. Les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin d'escalade humain pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.

Imprégner les agents de raisonnement dans la pratique

Un assistant de recherche divise une vague demande en sous-questions, rassemble des preuves et vérifie chaque résultat plutôt que de deviner.

Un assistant de recherche divise une vague demande en sous-questions, rassemble des preuves et vérifie chaque résultat plutôt que de deviner. Les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, gardent un chemin de remontée humain pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.

Imprégner les agents de raisonnement dans la pratique

Un agent personnel rédige et réconcilie un plan complexe en plusieurs étapes, signalant les points où il est incertain et nécessite l'approbation humaine.

Un agent personnel rédige et réconcilie un plan complexe en plusieurs étapes, en signalant les points où il est incertain et nécessite une approbation humaine. Les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin de remontée humaine pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.

Imprégner les agents de raisonnement dans la pratique

Les outils internes permettent à un agent de confirmer si chaque action a réellement modifié l'état du système, au lieu de supposer qu'elle a réussi.

Les outils internes permettent à un agent de confirmer si chaque action a réellement modifié l'état du système, au lieu de présumer du succès. Les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin de remontée humain pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.

Risques et garde-fous

!

Les annonces de lancement peuvent dépasser la stabilité des flux de production réels.

!

La tarification des API ou les changements de politique peuvent briser les hypothèses du jour au lendemain.

!

La dépendance à un seul fournisseur augmente les coûts de verrouillage et de migration.

Feuille de route de mise en œuvre

1

Évaluez les fournisseurs à l’aide de vos propres tâches et ensembles de données.

Évaluez les fournisseurs à l’aide de vos propres tâches et ensembles de données. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.

2

Vérifiez les conditions de confidentialité, de sécurité et juridiques avant l’intégration.

Vérifiez les conditions de confidentialité, de sécurité et juridiques avant l’intégration. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.

3

Maintenez un plan de secours entre les modèles ou les fournisseurs.

Maintenez un plan de secours entre les modèles ou les fournisseurs. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.

4

Surveillez les notes de version afin que les modifications de la feuille de route ne surprennent pas les équipes.

Surveillez les notes de version afin que les modifications de la feuille de route ne surprennent pas les équipes. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.

Continuez à explorer