Taal AI-GIDS

Aggregatie van mengsels van agenten

Mixture-of-Agents (MoA) is een techniek waarbij verschillende taalmodellen antwoorden opstellen en vervolgens een aggregatormodel hun beste ideeën samenvoegt tot één verbeterd antwoord.

Overzicht

Mixture-of-Agents-aggregatie maakt deel uit van de taal-AI-stack die wordt gebruikt om tekst en spraak op schaal te lezen, genereren, classificeren en transformeren.

Diepe duik

Mixture-of-Agents, geïntroduceerd in een paper uit 2024 van Together AI, organiseert meerdere LLM's in lagen. In de eerste laag beantwoorden verschillende 'voorsteller'-modellen elk onafhankelijk de vraag. Hun outputs worden vervolgens samengevoegd en doorgegeven aan de volgende laag, waar modellen opnieuw reageren, nu afhankelijk van alle eerdere concepten. Na een of meer van dergelijke rondes synthetiseert een definitief 'aggregator'-model alles in één antwoord. Het kerninzicht, dat de auteurs de 'samenwerkingskracht van LLM's' noemen, is dat modellen betere reacties produceren als ze de antwoorden van collega's laten zien, zelfs als deze niet perfect zijn. Op de AlpacaEval 2.0-benchmark overtrof een MoA die volledig was opgebouwd uit open-sourcemodellen naar verluidt de score van GPT-4 Omni, wat aantoont dat een zorgvuldige aggregatie van diverse, goedkopere modellen een enkel grenssysteem kan verslaan.

Technisch inzicht

MoA verschilt van stemming bij gewone meerderheid: in plaats van één antwoord te kiezen, leest de aggregator alle reacties van kandidaten als context en genereert een nieuwe synthese, waarbij sterke punten worden gecombineerd en fouten worden gefilterd. Diversiteit onder de indieners helpt, dus het mixen van verschillende modelfamilies is waardevol. De structuur is gelaagd, als een diep netwerk waarbij de 'neuronen' van elke laag hele LLM-oproepen zijn. De afweging is latentie en kosten: elke laag vermenigvuldigt het aantal inferentieoproepen, waardoor MoA meer rekenkracht besteedt om de kwaliteit te verbeteren.

Beheersing van de aggregatie van mengsels van agenten

Mixture-of-Agents (MoA) is een techniek waarbij verschillende taalmodellen antwoorden opstellen en vervolgens een aggregatormodel hun beste ideeën samenvoegt tot één verbeterd antwoord. Het laat een team van open modellen concurreren of een enkel topmodel verslaan. Mixture-of-Agents-aggregatie maakt deel uit van de taal-AI-stack die wordt gebruikt om tekst en spraak op schaal te lezen, genereren, classificeren en transformeren. Om diepgaand begrip op te bouwen, moet u Mixture-of-Agents-aggregatie beschouwen als een operationeel model, en niet als een enkel kenmerk: definieer de gewenste resultaten, verduidelijk aannames en scheid wat het systeem betrouwbaar kan doen en wat nog steeds deskundig oordeel vereist.

In de praktijk gebruiken sterke teams die Mixture-of-Agents-aggregatie gebruiken, ontwerpprompts, ophaal- en beoordelingslussen als één geïntegreerd communicatiesysteem. Ze documenteren expliciete succescriteria, testen aan de hand van realistische gegevens en workflows, en itereren op basis van waargenomen foutpatronen in plaats van eenmalige benchmarkwinsten. Dit is waar theoretisch inzicht verandert in duurzame mogelijkheden voor producten, beleid en activiteiten.

Taalworkflows kunnen sneller verlopen zonder dat dit ten koste gaat van de consistentie. Tegelijkertijd kunnen gehallucineerde feiten stilletjes rapporten binnendringen, stromen ondersteunen of onderzoeksresultaten opleveren. De meest veerkrachtige aanpak is het combineren van experimenteersnelheid met bestuursdiscipline: voer pilots uit, leg bewijsmateriaal vast, publiceer beslissingslogboeken en update voortdurend de veiligheidsmaatregelen naarmate het modelgedrag, de gebruikersverwachtingen en de wettelijke vereisten zich ontwikkelen.

Strategische impact

Taalworkflows kunnen sneller verlopen zonder dat dit ten koste gaat van de consistentie.

Taalworkflows kunnen sneller verlopen zonder dat dit ten koste gaat van de consistentie. Bij hoogwaardige implementaties wordt dit vertaald in meetbare operationele regels, eigendomsgrenzen en terugkerende beoordelingsrituelen, zodat teams het vertrouwen kunnen vergroten in plaats van de dubbelzinnigheid.

Het breidt de toegang uit naar meerdere talen en communicatiestijlen.

Het breidt de toegang uit naar meerdere talen en communicatiestijlen. Bij hoogwaardige implementaties wordt dit vertaald in meetbare operationele regels, eigendomsgrenzen en terugkerende beoordelingsrituelen, zodat teams het vertrouwen kunnen vergroten in plaats van de dubbelzinnigheid.

Teams kunnen meer tijd besteden aan beoordeling, terwijl automatisering de herhaling afhandelt.

Teams kunnen meer tijd besteden aan beoordeling, terwijl automatisering de herhaling afhandelt. Bij hoogwaardige implementaties wordt dit vertaald in meetbare operationele regels, eigendomsgrenzen en terugkerende beoordelingsrituelen, zodat teams het vertrouwen kunnen vergroten in plaats van de dubbelzinnigheid.

De toekomst van aggregatie van mengsels van agenten

Verwacht dat aggregatie in MoA-stijl zich zal verspreiden naarmate inferentie goedkoper wordt en orkestratieframeworks volwassener worden. Onderzoeksrichtingen omvatten onder meer het leren welke indieners per zoekopdracht kunnen vertrouwen (routing), het verminderen van de latentiestraf door de indieners parallel te laten lopen en zwakke voorstellen vroegtijdig te snoeien, en het combineren van MoA met tool-gebruikende agenten, zodat de aggregator niet alleen tekst, maar ook acties en opgehaald bewijs samenvoegt. Naarmate open modellen zich steeds meer verspreiden, wordt het op intelligente wijze samenbrengen ervan een steeds praktischer pad naar kwaliteit op grensniveau zonder één enkel gigantisch model.

Implementatie in de echte wereld

Door drie verschillende open chat-modellen te combineren als voorstellers en vervolgens een sterke aggregator te gebruiken om één gepolijst klantondersteuningsantwoord te produceren.

Verbetering van de scores voor het volgen van instructies op benchmarks in AlpacaEval-stijl met alleen open-sourcemodellen.

Het samenvoegen van diverse codesuggesties uit verschillende modellen tot één enkele, robuustere functie-implementatie.

Het runnen van een pijplijn met open gewichten die de grens van kwaliteit benadert voor een privacygevoelige implementatie waarbij gegevens de servers van een bedrijf niet kunnen verlaten.

Implementatiepatronen

Aggregatie van mengsels van agenten in de praktijk

Door drie verschillende open chat-modellen te combineren als voorstellers en vervolgens een sterke aggregator te gebruiken om één gepolijst klantondersteuningsantwoord te produceren.

Door drie verschillende open chat-modellen als voorstellers te combineren en vervolgens een sterke aggregator te gebruiken om één gepolijst klantondersteuningsantwoord te produceren. Teams behalen meestal betere resultaten als ze vooraf kwaliteitsdrempels definiëren, een menselijk escalatiepad aanhouden voor randgevallen en zowel de productiviteitswinst als de foutkosten in de loop van de tijd bijhouden.

Aggregatie van mengsels van agenten in de praktijk

Verbetering van de scores voor het volgen van instructies op benchmarks in AlpacaEval-stijl met alleen open-sourcemodellen.

Het verhogen van de scores voor het volgen van instructies op benchmarks in AlpacaEval-stijl met alleen open-sourcemodellen. Teams behalen meestal betere resultaten als ze vooraf kwaliteitsdrempels definiëren, een menselijk escalatiepad aanhouden voor randgevallen en zowel de productiviteitswinst als de foutkosten in de loop van de tijd bijhouden.

Aggregatie van mengsels van agenten in de praktijk

Het samenvoegen van diverse codesuggesties uit verschillende modellen tot één enkele, robuustere functie-implementatie.

Door diverse codesuggesties uit verschillende modellen samen te voegen tot één enkele, robuustere functie-implementatie. Teams behalen doorgaans betere resultaten als ze vooraf kwaliteitsdrempels definiëren, een menselijk escalatiepad aanhouden voor randgevallen en zowel de productiviteitswinst als de foutkosten in de loop van de tijd bijhouden.

Aggregatie van mengsels van agenten in de praktijk

Het runnen van een pijplijn met open gewichten die de grens van kwaliteit benadert voor een privacygevoelige implementatie waarbij gegevens de servers van een bedrijf niet kunnen verlaten.

Het runnen van een pijplijn met open gewichten die grenskwaliteit benadert voor een privacygevoelige implementatie waarbij gegevens de servers van een bedrijf niet kunnen verlaten. Teams behalen meestal betere resultaten als ze vooraf kwaliteitsdrempels definiëren, een menselijk escalatiepad aanhouden voor edge-cases en zowel de productiviteitswinst als de foutkosten in de loop van de tijd bijhouden.

Risico's en vangrails

Gehallucineerde feiten kunnen stilletjes rapporten binnendringen, stromen ondersteunen of onderzoeksresultaten opleveren.

Gevoeligheid voor prompts kan inconsistente resultaten opleveren voor vergelijkbare verzoeken.

Gevoelige tekstgegevens kunnen openbaar worden gemaakt als de toegangscontroles zwak zijn.

Implementatie routekaart

Definieer het uitvoerformaat, de toon en de kwaliteitsnormen vóór de implementatie.

Definieer het uitvoerformaat, de toon en de kwaliteitsnormen vóór de implementatie. Beschouw elke stap als een bewijspoort: als niet aan de criteria wordt voldaan, pauzeer dan de uitrol, dicht het gat en breid pas daarna het gebruik uit.

Grondreacties met vertrouwde bronnen wanneer nauwkeurigheid belangrijk is.

Grondreacties met vertrouwde bronnen wanneer nauwkeurigheid belangrijk is. Beschouw elke stap als een bewijspoort: als niet aan de criteria wordt voldaan, pauzeer dan de uitrol, dicht het gat en breid pas daarna het gebruik uit.

Houd een menselijk controlepunt bij voor resultaten met een hoge inzet.

Houd een menselijk controlepunt bij voor resultaten met een hoge inzet. Beschouw elke stap als een bewijspoort: als niet aan de criteria wordt voldaan, pauzeer dan de uitrol, dicht het gat en breid pas daarna het gebruik uit.

Houd faalpatronen bij en train prompts of workflows regelmatig opnieuw.

Houd faalpatronen bij en train prompts of workflows regelmatig opnieuw. Beschouw elke stap als een bewijspoort: als niet aan de criteria wordt voldaan, pauzeer dan de uitrol, dicht het gat en breid pas daarna het gebruik uit.

Blijf verkennen

ChatGPT en LLM's

Zie hoe moderne taalmodellen genereren en redeneren.

Gids lezen

NLP-basisprincipes

Leer de basisprincipes van taalverwerking achter deze tools.

Gids lezen