Descripción general
Vision Transformers (ViT) aplica la arquitectura de transformador que alimenta ChatGPT a las imágenes, tratando una imagen como una secuencia de parches en lugar de una cuadrícula de píxeles. Demostraron que no se necesitan convoluciones para lograr un reconocimiento de imágenes de última generación.
Vision Transformers pertenece a flujos de trabajo de visión por computadora que interpretan o generan medios visuales para análisis, operaciones y creatividad.
Buceo profundo
Durante años, las redes neuronales convolucionales (CNN) dominaron la visión por computadora al escanear pequeños filtros a través de una imagen. El artículo de 2020 'Una imagen vale 16 x 16 palabras' de Google cuestionó esto cortando una imagen en parches fijos, generalmente de 16 x 16 píxeles, aplanando cada uno en un vector y alimentando la secuencia resultante en un transformador estándar. Cada parche se convierte en un "token", muy parecido a una palabra en una oración. Luego, el modelo utiliza la atención propia para que cada parche pueda relacionarse directamente con todos los demás parches, capturando relaciones de largo alcance que un pequeño filtro convolucional no puede ver en un solo paso. El problema: los ViT necesitan datos porque carecen de los supuestos integrados de las CNN. Capacitados con enormes conjuntos de datos como JFT-300M, igualaron o superaron a las mejores CNN, remodelando la investigación de la visión moderna.
Información técnica
Un ViT divide una imagen en parches que no se superponen, proyecta cada uno linealmente en una incrustación y agrega codificaciones posicionales para que el modelo sepa dónde se encontraba cada parche en la imagen original. Se antepone un 'token de clase' especial que se puede aprender; su representación final impulsa la clasificación. Las capas de autoatención apiladas permiten que cada parche sopese la información de todos los demás, brindando un campo receptivo global desde la capa uno. Debido a que la atención escala cuadráticamente con el número de parches, las imágenes de alta resolución se vuelven costosas, razón por la cual el tamaño del parche y las variantes de atención eficientes son importantes.
Dominar los transformadores de visión
Vision Transformers (ViT) aplica la arquitectura de transformador que alimenta ChatGPT a las imágenes, tratando una imagen como una secuencia de parches en lugar de una cuadrícula de píxeles. Demostraron que no se necesitan convoluciones para lograr un reconocimiento de imágenes de última generación. Vision Transformers pertenece a flujos de trabajo de visión por computadora que interpretan o generan medios visuales para análisis, operaciones y creatividad. Para generar una comprensión profunda, trate a Vision Transformers como un modelo operativo, no como una característica única: defina los resultados deseados, aclare las suposiciones y separe lo que el sistema puede hacer de manera confiable de lo que aún requiere el juicio de expertos.
En la práctica, los equipos sólidos que utilizan Vision Transformers equilibran la precisión con realidades operativas como la calidad de los datos, la variación de la iluminación y la coherencia del etiquetado. Documentan criterios de éxito explícitos, se prueban con datos y flujos de trabajo realistas y se iteran en función de patrones de error observados en lugar de victorias de referencia únicas. Aquí es donde la comprensión teórica se convierte en una capacidad duradera en todos los productos, políticas y operaciones.
La IA visual puede automatizar tareas de inspección, detección y etiquetado a escala. Al mismo tiempo, los derechos de imagen y el consentimiento pueden convertirse en riesgos legales si la procedencia no está clara. El enfoque más resiliente es combinar la velocidad de experimentación con la disciplina de gobernanza: ejecutar pilotos, capturar evidencia, publicar registros de decisiones y actualizar continuamente las salvaguardas a medida que evolucionan el comportamiento del modelo, las expectativas de los usuarios y los requisitos regulatorios.
Impacto Estratégico
La IA visual puede automatizar tareas de inspección, detección y etiquetado a escala.
La IA visual puede automatizar tareas de inspección, detección y etiquetado a escala. En implementaciones de alta calidad, esto se traduce en reglas operativas mensurables, límites de propiedad y rituales de revisión recurrentes para que los equipos puedan aumentar la confianza en lugar de aumentar la ambigüedad.
Los equipos creativos pueden crear prototipos de conceptos más rápido y con menos revisiones manuales.
Los equipos creativos pueden crear prototipos de conceptos más rápido y con menos revisiones manuales. En implementaciones de alta calidad, esto se traduce en reglas operativas mensurables, límites de propiedad y rituales de revisión recurrentes para que los equipos puedan aumentar la confianza en lugar de aumentar la ambigüedad.
Las operaciones pueden utilizar señales de imagen y vídeo que antes eran difíciles de procesar.
Las operaciones pueden utilizar señales de imagen y vídeo que antes eran difíciles de procesar. En implementaciones de alta calidad, esto se traduce en reglas operativas mensurables, límites de propiedad y rituales de revisión recurrentes para que los equipos puedan aumentar la confianza en lugar de aumentar la ambigüedad.
Implementación en el mundo real
Los sistemas de clasificación de imágenes y clasificación de búsqueda de Google que adoptaron redes troncales transformadoras después de que ViT demostrara ser competitivo con las CNN
CLIP y otros modelos de imagen-texto que utilizan un ViT para codificar imágenes de modo que las fotos y los títulos puedan coincidir en un espacio compartido
Investigación de imágenes médicas que utiliza ViT para detectar patrones en una exploración completa en lugar de solo texturas locales
Pilas de percepción robótica y de conducción autónoma que combinan atención estilo ViT para comprender la escena en todo el campo de visión.
Patrones de implementación
Transformadores de visión en la práctica
Los sistemas de clasificación de imágenes y clasificación de búsqueda de Google que adoptaron redes troncales transformadoras después de que ViT demostraron ser competitivos con las CNN.
Los sistemas de clasificación de imágenes y clasificación de búsqueda de Google que adoptaron redes troncales transformadoras después de que ViT demostraron ser competitivos con las CNN. Los equipos generalmente obtienen mejores resultados cuando definen umbrales de calidad por adelantado, mantienen una ruta de escalada humana para casos extremos y rastrean tanto las ganancias de productividad como los costos de error a lo largo del tiempo.
Transformadores de visión en la práctica
CLIP y otros modelos de imagen-texto que utilizan ViT para codificar imágenes de modo que las fotos y los títulos puedan coincidir en un espacio compartido.
CLIP y otros modelos de imagen-texto que utilizan un ViT para codificar imágenes de modo que las fotos y los títulos puedan coincidir en un espacio compartido. Los equipos generalmente obtienen mejores resultados cuando definen umbrales de calidad por adelantado, mantienen una ruta de escalada humana para casos extremos y realizan un seguimiento tanto de las ganancias de productividad como de los costos de error a lo largo del tiempo.
Transformadores de visión en la práctica
Investigación de imágenes médicas que utiliza ViT para detectar patrones en una exploración completa en lugar de solo texturas locales.
Investigación de imágenes médicas que utiliza ViT para detectar patrones en todo un escaneo en lugar de solo texturas locales. Los equipos generalmente obtienen mejores resultados cuando definen umbrales de calidad por adelantado, mantienen una ruta de escalada humana para casos extremos y rastrean tanto las ganancias de productividad como los costos de error a lo largo del tiempo.
Transformadores de visión en la práctica
Pilas de percepción robótica y de conducción autónoma que combinan atención estilo ViT para comprender la escena en todo el campo de visión.
Pilas de percepción robótica y de conducción autónoma que combinan atención estilo ViT para comprender la escena en todo el campo de visión. Los equipos generalmente obtienen mejores resultados cuando definen umbrales de calidad por adelantado, mantienen una ruta de escalada humana para casos extremos y realizan un seguimiento tanto de las ganancias de productividad como de los costos de error a lo largo del tiempo.
Riesgos y barandillas
Los derechos de imagen y el consentimiento pueden convertirse en riesgos legales si la procedencia no está clara.
El rendimiento del modelo puede variar según la iluminación, la demografía y los entornos.
Los falsos positivos pueden pasar desapercibidos a menos que se controlen los umbrales de confianza.
Hoja de ruta de implementación
Defina criterios de aceptación para costos de precisión, recuperación y error.
Defina criterios de aceptación para costos de precisión, recuperación y error. Trate cada paso como una puerta de evidencia: si no se cumplen los criterios, suspenda la implementación, cierre la brecha y solo entonces amplíe el uso.
Pruebe con datos que coincidan con las condiciones reales de producción.
Pruebe con datos que coincidan con las condiciones reales de producción. Trate cada paso como una puerta de evidencia: si no se cumplen los criterios, suspenda la implementación, cierre la brecha y solo entonces amplíe el uso.
Agregue revisión humana para predicciones de baja confianza o de alto impacto.
Agregue revisión humana para predicciones de baja confianza o de alto impacto. Trate cada paso como una puerta de evidencia: si no se cumplen los criterios, suspenda la implementación, cierre la brecha y solo entonces amplíe el uso.
Realice un seguimiento de la deriva del modelo y vuelva a validarlo después de cambios en la cámara o el conjunto de datos.
Realice un seguimiento de la deriva del modelo y vuelva a validarlo después de cambios en la cámara o el conjunto de datos. Trate cada paso como una puerta de evidencia: si no se cumplen los criterios, suspenda la implementación, cierre la brecha y solo entonces amplíe el uso.