GUÍA visual de IA

Transformadores de visión

Vision Transformers (ViT) aplica la arquitectura de transformador que alimenta ChatGPT a las imágenes, tratando una imagen como una secuencia de parches en lugar de una cuadrícula de píxeles.

Descripción general

Vision Transformers (ViT) aplica la arquitectura de transformador que alimenta ChatGPT a las imágenes, tratando una imagen como una secuencia de parches en lugar de una cuadrícula de píxeles. Demostraron que no se necesitan convoluciones para lograr un reconocimiento de imágenes de última generación.

Vision Transformers pertenece a flujos de trabajo de visión por computadora que interpretan o generan medios visuales para análisis, operaciones y creatividad.

Buceo profundo

Durante años, las redes neuronales convolucionales (CNN) dominaron la visión por computadora al escanear pequeños filtros a través de una imagen. El artículo de 2020 'Una imagen vale 16 x 16 palabras' de Google cuestionó esto cortando una imagen en parches fijos, generalmente de 16 x 16 píxeles, aplanando cada uno en un vector y alimentando la secuencia resultante en un transformador estándar. Cada parche se convierte en un "token", muy parecido a una palabra en una oración. Luego, el modelo utiliza la atención propia para que cada parche pueda relacionarse directamente con todos los demás parches, capturando relaciones de largo alcance que un pequeño filtro convolucional no puede ver en un solo paso. El problema: los ViT necesitan datos porque carecen de los supuestos integrados de las CNN. Capacitados con enormes conjuntos de datos como JFT-300M, igualaron o superaron a las mejores CNN, remodelando la investigación de la visión moderna.

Información técnica

Un ViT divide una imagen en parches que no se superponen, proyecta cada uno linealmente en una incrustación y agrega codificaciones posicionales para que el modelo sepa dónde se encontraba cada parche en la imagen original. Se antepone un 'token de clase' especial que se puede aprender; su representación final impulsa la clasificación. Las capas de autoatención apiladas permiten que cada parche sopese la información de todos los demás, brindando un campo receptivo global desde la capa uno. Debido a que la atención escala cuadráticamente con el número de parches, las imágenes de alta resolución se vuelven costosas, razón por la cual el tamaño del parche y las variantes de atención eficientes son importantes.

Dominar los transformadores de visión

Para generar una comprensión profunda, trate a Vision Transformers como un modelo operativo, no como una característica única. Defina los resultados deseados, aclare los supuestos y separe lo que el sistema puede hacer de manera confiable de lo que aún requiere el juicio de expertos.

En la práctica, los equipos sólidos que utilizan Vision Transformers equilibran la precisión con realidades operativas como la calidad de los datos, la variación de la iluminación y la coherencia del etiquetado. Documentan criterios de éxito explícitos, se prueban con datos y flujos de trabajo realistas y se iteran en función de patrones de error observados en lugar de victorias de referencia únicas. Aquí es donde la comprensión teórica se convierte en una capacidad duradera en todos los productos, políticas y operaciones.

La IA visual puede automatizar tareas de inspección, detección y etiquetado a escala. Al mismo tiempo, los derechos de imagen y el consentimiento pueden convertirse en riesgos legales si la procedencia no está clara. El enfoque más resiliente es combinar la velocidad de experimentación con la disciplina de gobernanza: ejecutar pilotos, capturar evidencia, publicar registros de decisiones y actualizar continuamente las salvaguardas a medida que evolucionan el comportamiento del modelo, las expectativas de los usuarios y los requisitos regulatorios.

Impacto Estratégico

La IA visual puede automatizar tareas de inspección, detección y etiquetado a escala.

La IA visual puede automatizar tareas de inspección, detección y etiquetado a escala. En implementaciones de alta calidad, esto se traduce en reglas operativas mensurables, límites de propiedad y rituales de revisión recurrentes para que los equipos puedan aumentar la confianza en lugar de aumentar la ambigüedad.

Los equipos creativos pueden crear prototipos de conceptos más rápido y con menos revisiones manuales.

Los equipos creativos pueden crear prototipos de conceptos más rápido y con menos revisiones manuales. En implementaciones de alta calidad, esto se traduce en reglas operativas mensurables, límites de propiedad y rituales de revisión recurrentes para que los equipos puedan aumentar la confianza en lugar de aumentar la ambigüedad.

Las operaciones pueden utilizar señales de imagen y vídeo que antes eran difíciles de procesar.

Las operaciones pueden utilizar señales de imagen y vídeo que antes eran difíciles de procesar. En implementaciones de alta calidad, esto se traduce en reglas operativas mensurables, límites de propiedad y rituales de revisión recurrentes para que los equipos puedan aumentar la confianza en lugar de aumentar la ambigüedad.

El futuro de los transformadores de visión

Los híbridos ViT y CNN-transformador ahora impulsan los principales sistemas de visión, y la arquitectura sustenta modelos multimodales que fusionan imágenes con texto, como CLIP y modernos asistentes de visión y lenguaje. Se espera un trabajo continuo para abaratar la atención en alta resolución y vídeo, además de un entrenamiento previo autosupervisado (como el modelado de imágenes enmascaradas) que reduzca el enorme apetito por los datos etiquetados. A medida que la computación crece, la línea entre el "modelo de lenguaje" y el "modelo de visión" se vuelve borrosa, y los transformadores sirven como columna vertebral compartida entre modalidades en lugar de diseños especializados separados.

Implementación en el mundo real

Los sistemas de clasificación de imágenes y clasificación de búsqueda de Google que adoptaron redes troncales transformadoras después de que ViT demostrara ser competitivo con las CNN

CLIP y otros modelos de imagen-texto que utilizan un ViT para codificar imágenes de modo que las fotos y los títulos puedan coincidir en un espacio compartido

Investigación de imágenes médicas que utiliza ViT para detectar patrones en una exploración completa en lugar de solo texturas locales

Pilas de percepción robótica y de conducción autónoma que combinan atención estilo ViT para comprender la escena en todo el campo de visión.

Patrones de implementación

Transformadores de visión en la práctica

Los sistemas de clasificación de imágenes y clasificación de búsqueda de Google que adoptaron redes troncales transformadoras después de que ViT demostraron ser competitivos con las CNN.

Los equipos generalmente obtienen mejores resultados cuando definen umbrales de calidad por adelantado, mantienen una ruta de escalada humana para casos extremos y realizan un seguimiento tanto de las ganancias de productividad como de los costos de error a lo largo del tiempo.

Transformadores de visión en la práctica

CLIP y otros modelos de imagen-texto que utilizan ViT para codificar imágenes de modo que las fotos y los títulos puedan coincidir en un espacio compartido.

Transformadores de visión en la práctica

Investigación de imágenes médicas que utiliza ViT para detectar patrones en una exploración completa en lugar de solo texturas locales.

Transformadores de visión en la práctica

Pilas de percepción robótica y de conducción autónoma que combinan atención estilo ViT para comprender la escena en todo el campo de visión.

Riesgos y barandillas

Los derechos de imagen y el consentimiento pueden convertirse en riesgos legales si la procedencia no está clara.

El rendimiento del modelo puede variar según la iluminación, la demografía y los entornos.

Los falsos positivos pueden pasar desapercibidos a menos que se controlen los umbrales de confianza.

Hoja de ruta de implementación

Defina criterios de aceptación para costos de precisión, recuperación y error.

Trate esto como una puerta de evidencia: si no se cumplen los criterios, suspenda la implementación, cierre la brecha y solo entonces amplíe el uso.

Pruebe con datos que coincidan con las condiciones reales de producción.

Trate esto como una puerta de evidencia: si no se cumplen los criterios, suspenda la implementación, cierre la brecha y solo entonces amplíe el uso.

Agregue revisión humana para predicciones de baja confianza o de alto impacto.

Trate esto como una puerta de evidencia: si no se cumplen los criterios, suspenda la implementación, cierre la brecha y solo entonces amplíe el uso.

Realice un seguimiento de la deriva del modelo y vuelva a validarlo después de cambios en la cámara o el conjunto de datos.

Trate esto como una puerta de evidencia: si no se cumplen los criterios, suspenda la implementación, cierre la brecha y solo entonces amplíe el uso.

Sigue explorando

Visión por computadora

Comprenda los sistemas básicos que impulsan la IA visual.

Leer guía

Generación de imágenes de IA

Explore los flujos de trabajo de creación y las compensaciones de modelos.

Leer guía

Check your understanding

Test yourself: take the Vision Transformers quiz

Start quiz →

Transformadores de visión

Descripción general

Buceo profundo

Información técnica

Dominar los transformadores de visión

Impacto Estratégico

El futuro de los transformadores de visión

Implementación en el mundo real

Patrones de implementación

Transformadores de visión en la práctica

Transformadores de visión en la práctica

Transformadores de visión en la práctica

Transformadores de visión en la práctica

Riesgos y barandillas

Hoja de ruta de implementación

Sigue explorando

Visión por computadora

Generación de imágenes de IA

Related guides