GUIA visual de IA

Transformadores de visão

Vision Transformers (ViTs) aplicam a arquitetura do transformador que alimenta ChatGPT às imagens, tratando uma imagem como uma sequência de patches em vez de uma grade de pixels.

Visão geral

Vision Transformers (ViTs) aplicam a arquitetura do transformador que alimenta ChatGPT às imagens, tratando uma imagem como uma sequência de patches em vez de uma grade de pixels. Eles provaram que não são necessárias circunvoluções para obter reconhecimento de imagem de última geração.

Vision Transformers pertence a fluxos de trabalho de visão computacional que interpretam ou geram mídia visual para análise, operações e criatividade.

Mergulho profundo

Durante anos, as redes neurais convolucionais (CNNs) dominaram a visão computacional ao digitalizar pequenos filtros em uma imagem. O artigo de 2020 'Uma imagem vale 16x16 palavras' de Google desafiou isso cortando uma imagem em fragmentos fixos, normalmente 16x16 pixels, achatando cada um em um vetor e alimentando a sequência resultante em um transformador padrão. Cada patch se torna um 'token', muito parecido com uma palavra em uma frase. O modelo então usa a autoatenção para que cada patch possa se relacionar diretamente com todos os outros patches, capturando relacionamentos de longo alcance que um pequeno filtro convolucional não consegue ver em uma única etapa. O problema: os ViTs têm fome de dados porque não possuem as suposições incorporadas das CNNs. Treinados em enormes conjuntos de dados como o JFT-300M, eles igualaram ou superaram as melhores CNNs, remodelando a pesquisa moderna sobre visão.

Visão Técnica

Um ViT divide uma imagem em patches não sobrepostos, projeta cada um linearmente em uma incorporação e adiciona codificações posicionais para que o modelo saiba onde cada patch estava na imagem original. Um 'token de classe' especial que pode ser aprendido é anexado; sua representação final impulsiona a classificação. Camadas de autoatenção empilhadas permitem que cada patch avalie as informações de todas as outras, fornecendo um campo receptivo global da camada um. Como a atenção aumenta quadraticamente com o número de patches, as imagens de alta resolução tornam-se caras, e é por isso que o tamanho do patch e as variantes de atenção eficientes são importantes.

Dominando os transformadores de visão

Para construir um entendimento profundo, trate os Vision Transformers como um modelo operacional, não como um único recurso. Defina os resultados desejados, esclareça suposições e separe o que o sistema pode fazer de forma confiável daquilo que ainda requer julgamento especializado.

Na prática, equipes fortes que usam Vision Transformers equilibram a precisão com realidades operacionais, como qualidade de dados, variação de iluminação e consistência de etiquetagem. Eles documentam critérios de sucesso explícitos, testam dados e fluxos de trabalho realistas e iteram com base em padrões de falha observados, em vez de ganhos únicos de benchmark. É aqui que a compreensão teórica se transforma em capacidade durável em produtos, políticas e operações.

A IA visual pode automatizar tarefas de inspeção, detecção e marcação em grande escala. Ao mesmo tempo, os direitos de imagem e o consentimento podem tornar-se riscos legais se a proveniência não for clara. A abordagem mais resiliente é combinar a velocidade da experimentação com a disciplina de governação: executar pilotos, capturar provas, publicar registos de decisões e atualizar continuamente as salvaguardas à medida que o comportamento do modelo, as expectativas dos utilizadores e os requisitos regulamentares evoluem.

Impacto Estratégico

A IA visual pode automatizar tarefas de inspeção, detecção e marcação em grande escala.

A IA visual pode automatizar tarefas de inspeção, detecção e marcação em grande escala. Em implantações de alta qualidade, isso se traduz em regras operacionais mensuráveis, limites de propriedade e rituais de revisão recorrentes para que as equipes possam aumentar a confiança em vez de aumentar a ambiguidade.

As equipes criativas podem criar protótipos de conceitos mais rapidamente e com menos revisões manuais.

As equipes criativas podem criar protótipos de conceitos mais rapidamente e com menos revisões manuais. Em implantações de alta qualidade, isso se traduz em regras operacionais mensuráveis, limites de propriedade e rituais de revisão recorrentes para que as equipes possam aumentar a confiança em vez de aumentar a ambiguidade.

As operações podem usar sinais de imagem e vídeo que antes eram difíceis de processar.

As operações podem usar sinais de imagem e vídeo que antes eram difíceis de processar. Em implantações de alta qualidade, isso se traduz em regras operacionais mensuráveis, limites de propriedade e rituais de revisão recorrentes para que as equipes possam aumentar a confiança em vez de aumentar a ambiguidade.

O futuro dos transformadores de visão

Os híbridos de transformadores ViTs e CNN agora alimentam os principais sistemas de visão, e a arquitetura sustenta modelos multimodais que fundem imagens com texto, como CLIP e modernos assistentes de linguagem de visão. Espere um trabalho contínuo para tornar a atenção mais barata para alta resolução e vídeo, além de pré-treinamento auto-supervisionado (como modelagem de imagem mascarada) que reduz o enorme apetite por dados rotulados. À medida que a computação cresce, a linha entre o “modelo de linguagem” e o “modelo de visão” continua a confundir-se, com os transformadores a servirem como uma espinha dorsal partilhada entre modalidades, em vez de designs especializados separados.

Implementação no mundo real

Sistemas de classificação de imagens e classificação de pesquisa de Google que adotaram backbones de transformadores depois que ViT se mostrou competitivo com CNNs

CLIP e outros modelos de imagem-texto que usam ViT para codificar imagens para que fotos e legendas possam ser combinadas em um espaço compartilhado

Pesquisa de imagens médicas usando ViTs para detectar padrões em todo o exame, em vez de apenas texturas locais

Pilhas de percepção autônoma e robótica que combinam atenção no estilo ViT para compreensão da cena em todo o campo de visão

Padrões de Implementação

Transformadores de visão na prática

Os sistemas de classificação de imagens e classificação de pesquisa de Google que adotaram backbones de transformadores depois que o ViT se mostrou competitivo com as CNNs.

As equipes geralmente obtêm melhores resultados quando definem limites de qualidade antecipadamente, mantêm um caminho de escalonamento humano para casos extremos e acompanham os ganhos de produtividade e os custos de erros ao longo do tempo.

Transformadores de visão na prática

CLIP e outros modelos de imagem-texto que usam ViT para codificar imagens para que fotos e legendas possam ser combinadas em um espaço compartilhado.

Transformadores de visão na prática

Pesquisa de imagens médicas usando ViTs para detectar padrões em todo o exame, em vez de apenas texturas locais.

Transformadores de visão na prática

Pilhas de percepção autônoma e robótica que combinam atenção no estilo ViT para compreensão da cena em todo o campo de visão.

Riscos e guarda-corpos

Os direitos de imagem e o consentimento podem tornar-se riscos legais se a proveniência não for clara.

O desempenho do modelo pode variar dependendo da iluminação, dados demográficos e ambientes.

Os falsos positivos podem passar despercebidos, a menos que os limites de confiança sejam monitorados.

Roteiro de implementação

Defina critérios de aceitação para precisão, recall e custos de erro.

Trate isso como uma porta de evidência: se os critérios não forem atendidos, pause a implementação, feche a lacuna e só então expanda o uso.

Teste com dados que correspondam às condições reais de produção.

Trate isso como uma porta de evidência: se os critérios não forem atendidos, pause a implementação, feche a lacuna e só então expanda o uso.

Adicione revisão humana para previsões de baixa confiança ou de alto impacto.

Trate isso como uma porta de evidência: se os critérios não forem atendidos, pause a implementação, feche a lacuna e só então expanda o uso.

Rastreie o desvio do modelo e revalide após alterações na câmera ou no conjunto de dados.

Trate isso como uma porta de evidência: se os critérios não forem atendidos, pause a implementação, feche a lacuna e só então expanda o uso.

Continue explorando

Visão Computacional

Entenda os sistemas básicos que potencializam a IA visual.

Leia o guia

Geração de imagens de IA

Explore fluxos de trabalho de criação e modelos de compensações.

Leia o guia

Check your understanding

Test yourself: take the Vision Transformers quiz

Start quiz →

Transformadores de visão

Visão geral

Mergulho profundo

Visão Técnica

Dominando os transformadores de visão

Impacto Estratégico

O futuro dos transformadores de visão

Implementação no mundo real

Padrões de Implementação

Transformadores de visão na prática

Transformadores de visão na prática

Transformadores de visão na prática

Transformadores de visão na prática

Riscos e guarda-corpos

Roteiro de implementação

Continue explorando

Visão Computacional

Geração de imagens de IA

Related guides