GUIA de IA de linguagem

Agregação de mistura de agentes

Mistura de Agentes (MoA) é uma técnica em que vários modelos de linguagem elaboram respostas e, em seguida, um modelo agregador funde suas melhores ideias em uma resposta aprimorada.

Visão geral

Mistura de Agentes (MoA) é uma técnica em que vários modelos de linguagem elaboram respostas e, em seguida, um modelo agregador funde suas melhores ideias em uma resposta aprimorada. Ele permite que uma equipe de modelos abertos rivalize ou vença um único modelo de primeira linha.

A agregação de mistura de agentes faz parte da pilha de IA de linguagem usada para ler, gerar, classificar e transformar texto e fala em escala.

Mergulho profundo

Apresentado em um artigo de 2024 da Together AI, Mixture-of-Agents organiza vários LLMs em camadas. Na primeira camada, vários modelos de 'proponentes' respondem, cada um, independentemente ao prompt. Suas saídas são então concatenadas e entregues à próxima camada, onde os modelos respondem novamente, agora condicionados a todos os rascunhos anteriores. Após uma ou mais rodadas, um modelo “agregador” final sintetiza tudo em uma única resposta. A ideia central, que os autores chamam de “colaboratividade dos LLMs”, é que os modelos produzem melhores respostas quando mostradas as respostas dos pares, mesmo as imperfeitas. No benchmark AlpacaEval 2.0, um MoA construído inteiramente a partir de modelos de código aberto superou a pontuação do GPT-4 Omni, demonstrando que a agregação cuidadosa de modelos diversos e mais baratos pode vencer um sistema de fronteira única.

Visão técnica

O MoA difere da votação por maioria simples: em vez de escolher uma resposta, o agregador lê todas as respostas dos candidatos como contexto e gera uma nova síntese, combinando pontos fortes e filtrando erros. A diversidade entre os proponentes ajuda, por isso misturar diferentes famílias de modelos é valioso. A estrutura é em camadas, como uma rede profunda onde os “neurônios” de cada camada são chamadas LLM inteiras. A compensação é a latência e o custo: cada camada multiplica o número de chamadas de inferência, de modo que o MoA gasta mais computação para aumentar a qualidade.

Dominando a agregação de mistura de agentes

Mistura de Agentes (MoA) é uma técnica em que vários modelos de linguagem elaboram respostas e, em seguida, um modelo agregador funde suas melhores ideias em uma resposta aprimorada. Ele permite que uma equipe de modelos abertos rivalize ou vença um único modelo de primeira linha. A agregação de mistura de agentes faz parte da pilha de IA de linguagem usada para ler, gerar, classificar e transformar texto e fala em escala. Para construir um entendimento profundo, trate a agregação de mistura de agentes como um modelo operacional, não como um único recurso: defina os resultados desejados, esclareça suposições e separe o que o sistema pode fazer de forma confiável daquilo que ainda requer julgamento especializado.

Na prática, equipes fortes que usam agregação de mistura de agentes projetam prompts, recuperação e loops de revisão como um sistema de comunicação integrado. Eles documentam critérios de sucesso explícitos, testam dados e fluxos de trabalho realistas e iteram com base em padrões de falha observados, em vez de ganhos únicos de benchmark. É aqui que a compreensão teórica se transforma em capacidade durável em produtos, políticas e operações.

Os fluxos de trabalho de idiomas podem avançar mais rapidamente sem sacrificar a consistência. Ao mesmo tempo, os factos alucinados podem entrar silenciosamente em relatórios, fluxos de apoio ou resultados de investigação. A abordagem mais resiliente é combinar a velocidade da experimentação com a disciplina de governação: executar pilotos, capturar provas, publicar registos de decisões e atualizar continuamente as salvaguardas à medida que o comportamento do modelo, as expectativas dos utilizadores e os requisitos regulamentares evoluem.

Impacto Estratégico

Os fluxos de trabalho de idiomas podem avançar mais rapidamente sem sacrificar a consistência.

Os fluxos de trabalho de idiomas podem avançar mais rapidamente sem sacrificar a consistência. Em implantações de alta qualidade, isso se traduz em regras operacionais mensuráveis, limites de propriedade e rituais de revisão recorrentes para que as equipes possam aumentar a confiança em vez de aumentar a ambiguidade.

Ele expande o acesso entre idiomas e estilos de comunicação.

Ele expande o acesso entre idiomas e estilos de comunicação. Em implantações de alta qualidade, isso se traduz em regras operacionais mensuráveis, limites de propriedade e rituais de revisão recorrentes para que as equipes possam aumentar a confiança em vez de aumentar a ambiguidade.

As equipes podem gastar mais tempo julgando enquanto a automação cuida da repetição.

As equipes podem gastar mais tempo julgando enquanto a automação cuida da repetição. Em implantações de alta qualidade, isso se traduz em regras operacionais mensuráveis, limites de propriedade e rituais de revisão recorrentes para que as equipes possam aumentar a confiança em vez de aumentar a ambiguidade.

O futuro da agregação de mistura de agentes

Espere que a agregação no estilo MoA se espalhe à medida que a inferência se torna mais barata e as estruturas de orquestração amadurecem. As direções de pesquisa incluem aprender em quais proponentes confiar por consulta (roteamento), reduzir a penalidade de latência executando os proponentes em paralelo e eliminando os fracos antecipadamente, e combinando MoA com agentes usuários de ferramentas para que o agregador funda não apenas texto, mas ações e evidências recuperadas. À medida que os modelos abertos proliferam, juntá-los de forma inteligente torna-se um caminho cada vez mais prático para a qualidade de nível fronteiriço, sem um único modelo gigante.

Implementação no mundo real

Combinar três modelos diferentes de chat aberto como proponentes e, em seguida, usar um agregador forte para produzir uma resposta refinada de suporte ao cliente.

Aumentando as pontuações de seguimento de instruções em benchmarks no estilo AlpacaEval usando apenas modelos de código aberto.

Fusão de diversas sugestões de código de vários modelos em uma implementação de função única e mais robusta.

Executando um pipeline de peso aberto que se aproxima da qualidade de fronteira para uma implantação sensível à privacidade, onde os dados não podem sair dos servidores de uma empresa.

Padrões de Implementação

Agregação de mistura de agentes na prática

Combinar três modelos diferentes de chat aberto como proponentes e, em seguida, usar um agregador forte para produzir uma resposta refinada de suporte ao cliente.

Combinando três modelos diferentes de chat aberto como proponentes e, em seguida, usando um agregador forte para produzir uma resposta refinada de suporte ao cliente. As equipes geralmente obtêm melhores resultados quando definem limites de qualidade antecipadamente, mantêm um caminho de escalonamento humano para casos extremos e acompanham os ganhos de produtividade e os custos de erros ao longo do tempo.

Agregação de mistura de agentes na prática

Aumentando as pontuações de seguimento de instruções em benchmarks no estilo AlpacaEval usando apenas modelos de código aberto.

Aumentando as pontuações de seguimento de instruções em benchmarks no estilo AlpacaEval usando apenas modelos de código aberto As equipes geralmente obtêm melhores resultados quando definem limites de qualidade antecipadamente, mantêm um caminho de escalonamento humano para casos extremos e monitoram os ganhos de produtividade e os custos de erros ao longo do tempo.

Agregação de mistura de agentes na prática

Fusão de diversas sugestões de código de vários modelos em uma implementação de função única e mais robusta.

Combinando diversas sugestões de código de vários modelos em uma implementação de função única e mais robusta As equipes geralmente obtêm melhores resultados quando definem limites de qualidade antecipadamente, mantêm um caminho de escalonamento humano para casos extremos e acompanham os ganhos de produtividade e os custos de erros ao longo do tempo.

Agregação de mistura de agentes na prática

Executando um pipeline de peso aberto que se aproxima da qualidade de fronteira para uma implantação sensível à privacidade, onde os dados não podem sair dos servidores de uma empresa.

Executando um pipeline de pesos abertos que se aproxima da qualidade de fronteira para uma implantação sensível à privacidade onde os dados não podem sair dos servidores de uma empresa As equipes geralmente obtêm melhores resultados quando definem limites de qualidade antecipadamente, mantêm um caminho de escalonamento humano para casos extremos e acompanham os ganhos de produtividade e os custos de erros ao longo do tempo.

Riscos e guarda-corpos

!

Fatos alucinados podem entrar silenciosamente em relatórios, fluxos de apoio ou resultados de pesquisas.

!

A sensibilidade do prompt pode criar resultados inconsistentes em solicitações semelhantes.

!

Dados de texto confidenciais podem ser expostos se os controles de acesso forem fracos.

Roteiro de implementação

1

Defina o formato de saída, o tom e os padrões de qualidade antes da implementação.

Defina o formato de saída, o tom e os padrões de qualidade antes da implementação. Trate cada etapa como uma porta de evidência: se os critérios não forem atendidos, pause a implementação, feche a lacuna e só então expanda o uso.

2

Respostas terrestres com fontes confiáveis ​​sempre que a precisão for importante.

Respostas terrestres com fontes confiáveis ​​sempre que a precisão for importante. Trate cada etapa como uma porta de evidência: se os critérios não forem atendidos, pause a implementação, feche a lacuna e só então expanda o uso.

3

Mantenha um ponto de verificação de revisão humana para resultados de alto risco.

Mantenha um ponto de verificação de revisão humana para resultados de alto risco. Trate cada etapa como uma porta de evidência: se os critérios não forem atendidos, pause a implementação, feche a lacuna e só então expanda o uso.

4

Rastreie padrões de falha e treine novamente prompts ou fluxos de trabalho regularmente.

Rastreie padrões de falha e treine novamente prompts ou fluxos de trabalho regularmente. Trate cada etapa como uma porta de evidência: se os critérios não forem atendidos, pause a implementação, feche a lacuna e só então expanda o uso.

Continue explorando