Aperçu
Le mélange d'agents (MoA) est une technique dans laquelle plusieurs modèles de langage rédigent des réponses, puis un modèle d'agrégation fusionne leurs meilleures idées en une seule réponse améliorée. Il permet à une équipe de modèles ouverts de rivaliser ou de battre un seul modèle de premier plan.
L'agrégation de mélanges d'agents fait partie de la pile langage-IA utilisée pour lire, générer, classer et transformer du texte et de la parole à grande échelle.
Plongée profonde
Introduit dans un article de 2024 de Together AI, Mixture-of-Agents organise plusieurs LLM en couches. Dans la première couche, plusieurs modèles « proposants » répondent chacun indépendamment à l'invite. Leurs sorties sont ensuite concaténées et transmises à la couche suivante, où les modèles répondent à nouveau, désormais conditionnés par toutes les versions précédentes. Après un ou plusieurs tours de ce type, un modèle « agrégateur » final synthétise tout en une seule réponse. L'idée centrale, que les auteurs appellent le « caractère collaboratif des LLM », est que les modèles produisent de meilleures réponses lorsqu'on leur montre les réponses de leurs pairs, même imparfaites. Sur le benchmark AlpacaEval 2.0, un MoA entièrement construit à partir de modèles open source aurait dépassé le score de GPT-4 Omni, démontrant qu'une agrégation minutieuse de modèles divers et moins chers peut battre un système frontière unique.
Aperçu technique
Le MoA diffère du vote à la majorité simple : plutôt que de choisir une seule réponse, l'agrégateur lit toutes les réponses des candidats comme contexte et génère une nouvelle synthèse, mélangeant les points forts et filtrant les erreurs. La diversité parmi les proposants est utile, il est donc utile de mélanger différentes familles modèles. La structure est en couches, comme un réseau profond où les « neurones » de chaque couche sont des appels LLM entiers. Le compromis est la latence et le coût : chaque couche multiplie le nombre d'appels d'inférence, de sorte que MoA dépense plus de calcul pour améliorer la qualité.
Maîtriser l'agrégation de mélanges d'agents
Le mélange d'agents (MoA) est une technique dans laquelle plusieurs modèles de langage rédigent des réponses, puis un modèle d'agrégation fusionne leurs meilleures idées en une seule réponse améliorée. Il permet à une équipe de modèles ouverts de rivaliser ou de battre un seul modèle de premier plan. L'agrégation de mélanges d'agents fait partie de la pile langage-IA utilisée pour lire, générer, classer et transformer du texte et de la parole à grande échelle. Pour acquérir une compréhension approfondie, traitez l'agrégation de mélanges d'agents comme un modèle opérationnel et non comme une fonctionnalité unique : définissez les résultats souhaités, clarifiez les hypothèses et séparez ce que le système peut faire de manière fiable de ce qui nécessite encore un jugement d'expert.
Dans la pratique, des équipes solides utilisant l'agrégation de mélanges d'agents conçoivent des invites, des boucles de récupération et de révision comme un seul système de communication intégré. Ils documentent des critères de réussite explicites, testent par rapport à des données et des flux de travail réalistes et itèrent en fonction des modèles d'échec observés plutôt que des victoires de référence ponctuelles. C’est là que la compréhension théorique se transforme en capacité durable au niveau des produits, des politiques et des opérations.
Les flux de travail linguistiques peuvent évoluer plus rapidement sans sacrifier la cohérence. Dans le même temps, les faits hallucinés peuvent discrètement entrer dans des rapports, des flux de support ou des résultats de recherche. L'approche la plus résiliente consiste à combiner vitesse d'expérimentation et discipline de gouvernance : exécuter des projets pilotes, capturer des preuves, publier des journaux de décision et mettre à jour en permanence les protections à mesure que le comportement du modèle, les attentes des utilisateurs et les exigences réglementaires évoluent.
Impact stratégique
Les flux de travail linguistiques peuvent évoluer plus rapidement sans sacrifier la cohérence.
Les flux de travail linguistiques peuvent évoluer plus rapidement sans sacrifier la cohérence. Dans les déploiements de haute qualité, cela se traduit par des règles de fonctionnement mesurables, des limites de propriété et des rituels d'examen récurrents afin que les équipes puissent accroître la confiance au lieu de l'ambiguïté.
Il étend l’accès à toutes les langues et styles de communication.
Il étend l’accès à toutes les langues et styles de communication. Dans les déploiements de haute qualité, cela se traduit par des règles de fonctionnement mesurables, des limites de propriété et des rituels d'examen récurrents afin que les équipes puissent accroître la confiance au lieu de l'ambiguïté.
Les équipes peuvent consacrer plus de temps au jugement tandis que l’automatisation gère les répétitions.
Les équipes peuvent consacrer plus de temps au jugement tandis que l’automatisation gère les répétitions. Dans les déploiements de haute qualité, cela se traduit par des règles de fonctionnement mesurables, des limites de propriété et des rituels d'examen récurrents afin que les équipes puissent accroître la confiance au lieu de l'ambiguïté.
Mise en œuvre dans le monde réel
Combiner trois modèles de chat ouvert différents en tant que proposants, puis utiliser un agrégateur puissant pour produire une réponse de support client soignée.
Améliorer les scores de suivi des instructions sur les benchmarks de style AlpacaEval en utilisant uniquement des modèles open source.
Fusionner diverses suggestions de code provenant de plusieurs modèles en une seule implémentation de fonction plus robuste.
Exécution d'un pipeline à pondération ouverte qui s'approche de la qualité frontière pour un déploiement sensible à la confidentialité où les données ne peuvent pas quitter les serveurs d'une entreprise.
Modèles de mise en œuvre
L'agrégation de mélanges d'agents en pratique
Combiner trois modèles de chat ouvert différents en tant que proposants, puis utiliser un agrégateur puissant pour produire une réponse de support client soignée.
En combinant trois modèles de chat ouvert différents en tant que proposants, puis en utilisant un agrégateur puissant pour produire une réponse d'assistance client soignée, les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin d'escalade humain pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.
L'agrégation de mélanges d'agents en pratique
Améliorer les scores de suivi des instructions sur les benchmarks de style AlpacaEval en utilisant uniquement des modèles open source.
Améliorer les scores de suivi des instructions sur les benchmarks de style AlpacaEval en utilisant uniquement des modèles open source Les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin d'escalade humain pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.
L'agrégation de mélanges d'agents en pratique
Fusionner diverses suggestions de code provenant de plusieurs modèles en une seule implémentation de fonction plus robuste.
Fusionnant diverses suggestions de code provenant de plusieurs modèles en une seule implémentation de fonction plus robuste, les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, conservent un chemin d'escalade humain pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.
L'agrégation de mélanges d'agents en pratique
Exécution d'un pipeline à pondération ouverte qui s'approche de la qualité frontière pour un déploiement sensible à la confidentialité où les données ne peuvent pas quitter les serveurs d'une entreprise.
Exécution d'un pipeline à pondération ouverte qui approche la qualité de pointe pour un déploiement sensible à la confidentialité où les données ne peuvent pas quitter les serveurs d'une entreprise. Les équipes obtiennent généralement de meilleurs résultats lorsqu'elles définissent des seuils de qualité à l'avance, maintiennent un chemin d'escalade humaine pour les cas extrêmes et suivent à la fois les gains de productivité et les coûts d'erreur au fil du temps.
Risques et garde-fous
Les faits hallucinés peuvent discrètement entrer dans des rapports, des flux de support ou des résultats de recherche.
La sensibilité des invites peut créer des résultats incohérents pour des demandes similaires.
Les données textuelles sensibles peuvent être exposées si les contrôles d’accès sont faibles.
Feuille de route de mise en œuvre
Définissez le format de sortie, le ton et les normes de qualité avant le déploiement.
Définissez le format de sortie, le ton et les normes de qualité avant le déploiement. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.
Établissez des réponses auprès de sources fiables chaque fois que la précision est importante.
Établissez des réponses auprès de sources fiables chaque fois que la précision est importante. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.
Gardez un point de contrôle d’examen humain pour les résultats à enjeux élevés.
Gardez un point de contrôle d’examen humain pour les résultats à enjeux élevés. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.
Suivez les modèles de défaillance et recyclez régulièrement les invites ou les flux de travail.
Suivez les modèles de défaillance et recyclez régulièrement les invites ou les flux de travail. Traitez chaque étape comme une porte de preuves : si les critères ne sont pas remplis, suspendez le déploiement, comblez l'écart, puis étendez l'utilisation.