Ръководство на Vision Transformers

Преглед

Vision Transformers (ViTs) прилага трансформаторната архитектура, която захранва ChatGPT към изображения, като третира картината като последователност от кръпки вместо решетка от пиксели. Те доказаха, че нямате нужда от навивки, за да постигнете най-съвременното разпознаване на изображения.

Vision Transformers принадлежи към работни потоци за компютърно зрение, които интерпретират или генерират визуални медии за анализ, операции и творчество.

Дълбоко гмуркане

Години наред конволюционните невронни мрежи (CNN) доминираха в компютърното зрение чрез сканиране на малки филтри върху изображение. Документът от 2020 г. „Изображението струва 16x16 думи“ от Google оспорва това, като нарязва изображение на фиксирани кръпки, обикновено 16x16 пиксела, сплесквайки всеки във вектор и подавайки получената последователност в стандартен трансформатор. Всеки пластир се превръща в „токен“, подобно на дума в изречение. След това моделът използва самовнимание, така че всяка кръпка може директно да се свърже с всяка друга кръпка, улавяйки дългосрочни връзки, които малък конволюционен филтър не може да види в една стъпка. Уловката: ViT са жадни за данни, защото им липсват вградените предположения на CNN. Обучени на огромни набори от данни като JFT-300M, те съвпадаха или победиха най-добрите CNN, променяйки модерните изследвания на зрението.

Техническа информация

ViT разделя изображение на незастъпващи се петна, линейно проектира всеки във вграждане и добавя позиционни кодирания, така че моделът да знае къде се е намирал всеки пластир в оригиналното изображение. Добавя се специален „токен на клас“, който може да се обучава; неговото окончателно представяне води до класификация. Подредените слоеве за самовнимание позволяват на всеки пластир да претегля информация от всички останали, давайки глобално възприемчиво поле от първи слой. Тъй като вниманието се мащабира квадратично с броя на кръпките, изображенията с висока разделителна способност стават скъпи, поради което размерът на кръпката и ефективните варианти на внимание имат значение.

Овладяване на Vision Transformers

За да изградите дълбоко разбиране, третирайте Vision Transformers като оперативен модел, а не като отделна функция. Дефинирайте желаните резултати, изяснете предположенията и отделете това, което системата може да направи надеждно, от това, което все още изисква експертна преценка.

На практика силните екипи, използващи Vision Transformers, балансират точността с оперативните реалности като качество на данните, вариация на осветлението и последователност на етикетите. Те документират изрични критерии за успех, тестват срещу реалистични данни и работни потоци и повтарят въз основа на наблюдавани модели на неуспех, а не на еднократни победи в бенчмарка. Това е мястото, където теоретичното разбиране се превръща в трайна способност за продукти, политики и операции.

Visual AI може да автоматизира задачи за проверка, откриване и маркиране в мащаб. В същото време правата върху изображението и съгласието могат да се превърнат в правни рискове, ако произходът е неясен. Най-устойчивият подход е да се комбинира скоростта на експериментиране с дисциплината на управление: стартирайте пилотни проекти, събирайте доказателства, публикувайте регистрационни файлове за решения и непрекъснато актуализирайте предпазните мерки, докато поведението на модела, очакванията на потребителите и регулаторните изисквания се развиват.

Стратегическо въздействие

Visual AI може да автоматизира задачи за проверка, откриване и маркиране в мащаб.

Visual AI може да автоматизира задачи за проверка, откриване и маркиране в мащаб. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Творческите екипи могат да създават прототипи на концепции по-бързо с по-малко ръчни ревизии.

Творческите екипи могат да създават прототипи на концепции по-бързо с по-малко ръчни ревизии. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Операциите могат да използват изображения и видео сигнали, които преди са били трудни за обработка.

Операциите могат да използват изображения и видео сигнали, които преди са били трудни за обработка. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Бъдещето на визуалните трансформатори

ViTs и CNN-трансформаторни хибриди сега захранват водещи визуални системи, а архитектурата е в основата на мултимодални модели, които сливат изображения с текст, като CLIP и модерни асистенти за визуален език. Очаквайте продължителна работа за по-евтино привличане на внимание за висока разделителна способност и видео, плюс самоконтролирано предварително обучение (като моделиране на маскирани изображения), което намалява огромния апетит за етикетирани данни. С нарастването на изчисленията границата между „езиков модел“ и „визионен модел“ продължава да се размива, като трансформаторите служат като споделен гръбнак между модалностите, а не отделни специализирани дизайни.

Внедряване в реалния свят

Системите за класификация на изображения и класиране при търсене на Google, които приеха трансформаторни гръбнаци след ViT, се оказаха конкурентни на CNN

CLIP и други модели на изображение и текст, които използват ViT за кодиране на изображения, така че снимките и надписите да могат да бъдат съпоставени в споделено пространство

Изследване на медицински образи, използващо ViTs за откриване на модели в цялото сканиране, а не само в локални текстури

Стекове за самостоятелно шофиране и роботизирано възприятие, които комбинират внимание в стил ViT за разбиране на сцената в цялото зрително поле

Модели на изпълнение

Vision Transformers на практика

Системите за класификация на изображения и класиране при търсене на Google, които възприеха трансформаторни гръбнаци след ViT, се оказаха конкурентни на CNN.

Екипите обикновено получават по-добри резултати, когато предварително определят праговете за качество, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Vision Transformers на практика

CLIP и други модели на изображение и текст, които използват ViT за кодиране на изображения, така че снимките и надписите да могат да бъдат съпоставени в споделено пространство.

Екипите обикновено получават по-добри резултати, когато предварително определят праговете за качество, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Vision Transformers на практика

Изследване на медицински образи, използващо ViTs за откриване на модели в цялото сканиране, а не само в локални текстури.

Екипите обикновено получават по-добри резултати, когато предварително определят праговете за качество, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Vision Transformers на практика

Пакове за самостоятелно шофиране и роботизирано възприятие, които комбинират внимание в стила на ViT за разбиране на сцена в цялото зрително поле.

Екипите обикновено получават по-добри резултати, когато предварително определят праговете за качество, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Рискове и предпазни огради

!

Правата върху изображението и съгласието могат да се превърнат в правни рискове, ако произходът е неясен.

!

Производителността на модела може да варира в зависимост от осветлението, демографските данни и средата.

!

Фалшивите положителни резултати могат да останат незабелязани, освен ако не се наблюдават праговете на достоверност.

Пътна карта за изпълнение

1

Определете критерии за приемане за прецизност, извикване и разходи за грешки.

Отнасяйте се към това като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

2

Тествайте с данни, които съответстват на реалните производствени условия.

Отнасяйте се към това като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

3

Добавете преглед от човек за прогнози с ниска степен на сигурност или с голямо въздействие.

Отнасяйте се към това като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

4

Проследявайте дрейфа на модела и проверявайте отново след промени в камерата или набора от данни.

Отнасяйте се към това като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

Продължете да изследвате

Компютърно зрение

Разберете основните системи, които захранват визуалния AI.

Прочетете ръководството

AI Генериране на изображения

Разгледайте работните потоци за създаване и компромисите на модела.

Прочетете ръководството

Визия Трансформърс

Преглед

Дълбоко гмуркане

Техническа информация

Овладяване на Vision Transformers

Стратегическо въздействие

Бъдещето на визуалните трансформатори

Внедряване в реалния свят

Модели на изпълнение

Vision Transformers на практика

Vision Transformers на практика

Vision Transformers на практика

Vision Transformers на практика

Рискове и предпазни огради

Пътна карта за изпълнение

Продължете да изследвате

Компютърно зрение

AI Генериране на изображения

Related guides