GUIDE IA du langage

Agrégation de mélange d'agents

Aperçu

L'agrégation de mélanges d'agents fait partie de la pile langage-IA utilisée pour lire, générer, classer et transformer du texte et de la parole à grande échelle.

Plongée profonde

Introduit dans un article de 2024 de Together AI, Mixture-of-Agents organise plusieurs LLM en couches. Dans la première couche, plusieurs modèles « proposants » répondent chacun indépendamment à l'invite. Leurs sorties sont ensuite concaténées et transmises à la couche suivante, où les modèles répondent à nouveau, désormais conditionnés par toutes les versions précédentes. Après un ou plusieurs tours de ce type, un modèle « agrégateur » final synthétise tout en une seule réponse. L'idée centrale, que les auteurs appellent le « caractère collaboratif des LLM », est que les modèles produisent de meilleures réponses lorsqu'on leur montre les réponses de leurs pairs, même imparfaites. Sur le benchmark AlpacaEval 2.0, un MoA entièrement construit à partir de modèles open source aurait dépassé le score de GPT-4 Omni, démontrant qu'une agrégation minutieuse de modèles divers et moins chers peut battre un système frontière unique.

Aperçu technique

Le MoA diffère du vote à la majorité simple : plutôt que de choisir une seule réponse, l'agrégateur lit toutes les réponses des candidats comme contexte et génère une nouvelle synthèse, mélangeant les points forts et filtrant les erreurs. La diversité parmi les proposants est utile, il est donc utile de mélanger différentes familles modèles. La structure est en couches, comme un réseau profond où les « neurones » de chaque couche sont des appels LLM entiers. Le compromis est la latence et le coût : chaque couche multiplie le nombre d'appels d'inférence, de sorte que MoA dépense plus de calcul pour améliorer la qualité.

Maîtriser l'agrégation de mélanges d'agents

Le mélange d'agents (MoA) est une technique dans laquelle plusieurs modèles de langage rédigent des réponses, puis un modèle d'agrégation fusionne leurs meilleures idées en une seule réponse améliorée. Il permet à une équipe de modèles ouverts de rivaliser ou de battre un seul modèle de premier plan. L'agrégation de mélanges d'agents fait partie de la pile langage-IA utilisée pour lire, générer, classer et transformer du texte et de la parole à grande échelle. Pour acquérir une compréhension approfondie, traitez l'agrégation de mélanges d'agents comme un modèle opérationnel et non comme une fonctionnalité unique : définissez les résultats souhaités, clarifiez les hypothèses et séparez ce que le système peut faire de manière fiable de ce qui nécessite encore un jugement d'expert.

Dans la pratique, des équipes solides utilisant l'agrégation de mélanges d'agents conçoivent des invites, des boucles de récupération et de révision comme un seul système de communication intégré. Ils documentent des critères de réussite explicites, testent par rapport à des données et des flux de travail réalistes et itèrent en fonction des modèles d'échec observés plutôt que des victoires de référence ponctuelles. C’est là que la compréhension théorique se transforme en capacité durable au niveau des produits, des politiques et des opérations.

Les flux de travail linguistiques peuvent évoluer plus rapidement sans sacrifier la cohérence. Dans le même temps, les faits hallucinés peuvent discrètement entrer dans des rapports, des flux de support ou des résultats de recherche. L'approche la plus résiliente consiste à combiner vitesse d'expérimentation et discipline de gouvernance : exécuter des projets pilotes, capturer des preuves, publier des journaux de décision et mettre à jour en permanence les protections à mesure que le comportement du modèle, les attentes des utilisateurs et les exigences réglementaires évoluent.

Impact stratégique

Les flux de travail linguistiques peuvent évoluer plus rapidement sans sacrifier la cohérence.

Les flux de travail linguistiques peuvent évoluer plus rapidement sans sacrifier la cohérence. Dans les déploiements de haute qualité, cela se traduit par des règles de fonctionnement mesurables, des limites de propriété et des rituels d'examen récurrents afin que les équipes puissent accroître la confiance au lieu de l'ambiguïté.

Il étend l’accès à toutes les langues et styles de communication.

Il étend l’accès à toutes les langues et styles de communication. Dans les déploiements de haute qualité, cela se traduit par des règles de fonctionnement mesurables, des limites de propriété et des rituels d'examen récurrents afin que les équipes puissent accroître la confiance au lieu de l'ambiguïté.

Les équipes peuvent consacrer plus de temps au jugement tandis que l’automatisation gère les répétitions.

Les équipes peuvent consacrer plus de temps au jugement tandis que l’automatisation gère les répétitions. Dans les déploiements de haute qualité, cela se traduit par des règles de fonctionnement mesurables, des limites de propriété et des rituels d'examen récurrents afin que les équipes puissent accroître la confiance au lieu de l'ambiguïté.

L’avenir de l’agrégation de mélanges d’agents

Attendez-vous à ce que l’agrégation de type MoA se répande à mesure que l’inférence devient moins chère et que les cadres d’orchestration mûrissent. Les axes de recherche incluent l'apprentissage des proposants auxquels faire confiance par requête (routage), la réduction de la pénalité de latence en exécutant les proposants en parallèle et en éliminant les plus faibles plus tôt, et la combinaison du MoA avec des agents utilisant des outils afin que l'agrégateur fusionne non seulement le texte mais aussi les actions et les preuves récupérées. À mesure que les modèles ouverts prolifèrent, les assembler intelligemment devient une voie de plus en plus pratique vers une qualité de pointe sans un seul modèle géant.

Mise en œuvre dans le monde réel

Combiner trois modèles de chat ouvert différents en tant que proposants, puis utiliser un agrégateur puissant pour produire une réponse de support client soignée.

Améliorer les scores de suivi des instructions sur les benchmarks de style AlpacaEval en utilisant uniquement des modèles open source.

Fusionner diverses suggestions de code provenant de plusieurs modèles en une seule implémentation de fonction plus robuste.

Exécution d'un pipeline à pondération ouverte qui s'approche de la qualité frontière pour un déploiement sensible à la confidentialité où les données ne peuvent pas quitter les serveurs d'une entreprise.

Modèles de mise en œuvre

L'agrégation de mélanges d'agents en pratique

Combiner trois modèles de chat ouvert différents en tant que proposants, puis utiliser un agrégateur puissant pour produire une réponse de support client soignée.

En combinant trois modèles de chat ouvert différents en tant que proposants, puis en utilisant un agrégateur puissant pour produire une réponse d'assistance client soignée, les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin d'escalade humain pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.

L'agrégation de mélanges d'agents en pratique

Améliorer les scores de suivi des instructions sur les benchmarks de style AlpacaEval en utilisant uniquement des modèles open source.

Améliorer les scores de suivi des instructions sur les benchmarks de style AlpacaEval en utilisant uniquement des modèles open source Les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin d'escalade humain pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.

L'agrégation de mélanges d'agents en pratique

Fusionner diverses suggestions de code provenant de plusieurs modèles en une seule implémentation de fonction plus robuste.

Fusionnant diverses suggestions de code provenant de plusieurs modèles en une seule implémentation de fonction plus robuste, les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, conservent un chemin d'escalade humain pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.

L'agrégation de mélanges d'agents en pratique

Exécution d'un pipeline à pondération ouverte qui approche la qualité de pointe pour un déploiement sensible à la confidentialité où les données ne peuvent pas quitter les serveurs d'une entreprise. Les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin d'escalade humaine pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.

Risques et garde-fous

Les faits hallucinés peuvent discrètement entrer dans des rapports, des flux de support ou des résultats de recherche.

La sensibilité des invites peut créer des résultats incohérents pour des demandes similaires.

Les données textuelles sensibles peuvent être exposées si les contrôles d’accès sont faibles.

Feuille de route de mise en œuvre

Définissez le format de sortie, le ton et les normes de qualité avant le déploiement.

Définissez le format de sortie, le ton et les normes de qualité avant le déploiement. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.

Établissez des réponses auprès de sources fiables chaque fois que la précision est importante.

Établissez des réponses auprès de sources fiables chaque fois que la précision est importante. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.

Gardez un point de contrôle d’examen humain pour les résultats à enjeux élevés.

Gardez un point de contrôle d’examen humain pour les résultats à enjeux élevés. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.

Suivez les modèles de défaillance et recyclez régulièrement les invites ou les flux de travail.

Suivez les modèles de défaillance et recyclez régulièrement les invites ou les flux de travail. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.

Continuez à explorer

ChatGPT et LLM

Découvrez comment les modèles de langage modernes génèrent et raisonnent.

Lire le guide

Bases de la PNL

Apprenez les principes fondamentaux du traitement du langage derrière ces outils.

Lire le guide