РЪКОВОДСТВО за визуален AI

Маскирани автоенкодери

Маскираните автоенкодери (MAE) са самоконтролиран метод, който учи визуален модел да реконструира изображения, след като по-голямата част от картината е била скрита.

Преглед

Маскираните автоенкодери (MAE) са самоконтролиран метод, който учи визуален модел да реконструира изображения, след като по-голямата част от картината е била скрита. Като се научи да попълва празните места, моделът изгражда богато визуално разбиране без човешки етикети.

Маскираните автоенкодери принадлежат към работни потоци за компютърно зрение, които интерпретират или генерират визуални медии за анализ, операции и творчество.

Дълбоко гмуркане

Маскираните автоенкодери, представени от Kaiming He и колегите му от Meta AI през 2021 г., правят изображение, разделят го на малки части и произволно скриват много голяма част от тях, често 75%. Енкодер Vision Transformer обработва само видимите петна, докато олекотен декодер се опитва да възстанови оригиналните пиксели на липсващите. Тъй като толкова много е скрито, моделът не може просто да копира близките пиксели и трябва да научи смислена структура, като форми и части на обекти. Енкодерът, който пропуска маскирани пачове, прави обучението бързо и паметта ефективна. След предварително обучение декодерът се изхвърля и енкодерът се прехвърля силно към задачи за класификация, откриване и сегментиране.

Техническа информация

Ключовият трик е асиметрията: тежкият енкодер вижда само немаскираните 25% от пачовете, докато малък декодер реконструира останалите. Пачовете са сплескани, линейно вградени и им се дава позиционно кодиране. Загубата при реконструкция е средна квадратна грешка, изчислена само върху маскирани петна, обикновено върху нормализирани стойности на пиксели. Високите коефициенти на маскиране принуждават семантично обучение, а не интерполация на ниско ниво, а пропускането на маскирани токени в енкодера намалява драстично изчисленията в сравнение с обработката на цялото изображение.

Овладяване на маскирани автоенкодери

Маскираните автоенкодери (MAE) са самоконтролиран метод, който учи визуален модел да реконструира изображения, след като по-голямата част от картината е била скрита. Като се научи да попълва празните места, моделът изгражда богато визуално разбиране без човешки етикети. Маскираните автоенкодери принадлежат към работни потоци за компютърно зрение, които интерпретират или генерират визуални медии за анализ, операции и творчество. За да изградите дълбоко разбиране, третирайте Маскираните автоенкодери като оперативен модел, а не като отделна функция: дефинирайте желаните резултати, изяснете предположенията и отделете това, което системата може да направи надеждно, от това, което все още изисква експертна преценка.

На практика силни екипи, използващи маскирани автоенкодери, балансират точността с оперативните реалности като качество на данните, вариация на осветлението и последователност на етикетите. Те документират изрични критерии за успех, тестват срещу реалистични данни и работни потоци и повтарят въз основа на наблюдавани модели на неуспех, а не на еднократни победи в бенчмарка. Това е мястото, където теоретичното разбиране се превръща в трайна способност за продукти, политики и операции.

Visual AI може да автоматизира задачи за проверка, откриване и маркиране в мащаб. В същото време правата върху изображението и съгласието могат да се превърнат в правни рискове, ако произходът е неясен. Най-устойчивият подход е да се комбинира скоростта на експериментиране с дисциплината на управление: стартирайте пилотни проекти, събирайте доказателства, публикувайте регистрационни файлове за решения и непрекъснато актуализирайте предпазните мерки, докато поведението на модела, очакванията на потребителите и регулаторните изисквания се развиват.

Стратегическо въздействие

Visual AI може да автоматизира задачи за проверка, откриване и маркиране в мащаб.

Visual AI може да автоматизира задачи за проверка, откриване и маркиране в мащаб. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Творческите екипи могат да създават прототипи на концепции по-бързо с по-малко ръчни ревизии.

Творческите екипи могат да създават прототипи на концепции по-бързо с по-малко ръчни ревизии. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Операциите могат да използват изображения и видео сигнали, които преди са били трудни за обработка.

Операциите могат да използват изображения и видео сигнали, които преди са били трудни за обработка. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Бъдещето на маскираните автоенкодери

Маскираната реконструкция в стил MAE се превръща в рецепта по подразбиране за предварителна тренировка във всички модалности. Изследователите го разширяват до видео (скриване на кубове пространство-време), аудио спектрограми, медицински сканирания и сателитни изображения, където етикетите са оскъдни и скъпи. Очаквайте по-тясно сливане с език за мултимодални базови модели, по-ефективни декодери и адаптивно маскиране, което е насочено към информативни региони. С нарастването на изчисленията, маскираното предварително обучение върху огромни немаркирани колекции от изображения трябва да продължи да подобрява точността надолу по веригата, като същевременно намалява зависимостта от скъпоструваща човешка анотация.

Внедряване в реалния свят

Предварително обучение на Vision Transformer върху милиони немаркирани снимки, след което фина настройка за класификация на ImageNet със силна точност

Функции за обучение от немаркирани медицински сканирания (рентгенови лъчи, ЯМР), където експертната анотация е скъпа и ограничена

Адаптиране на метода към видео чрез маскиране на пространствено-времеви кръпки към модели за разпознаване на действие преди обучение (VideoMAE)

Предварително обучение за сателитни и въздушни изображения за поддръжка на картографиране на земеползването и откриване на промени без ръчни етикети

Модели на изпълнение

Маскирани автоенкодери на практика

Предварително обучение на Vision Transformer върху милиони немаркирани снимки, след което фина настройка за класификация на ImageNet със силна точност.

Предварително обучение на Vision Transformer върху милиони немаркирани снимки, след което фино настройване за класификация на ImageNet със силна точност Екипите обикновено получават по-добри резултати, когато дефинират праговете на качеството предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Маскирани автоенкодери на практика

Функции за обучение от немаркирани медицински сканирания (рентгенови лъчи, ЯМР), където експертната анотация е скъпа и ограничена.

Функции за обучение от немаркирани медицински сканирания (рентгенови лъчи, ЯМР), където експертната анотация е скъпа и ограничена. Екипите обикновено получават по-добри резултати, когато предварително определят прагове за качество, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Маскирани автоенкодери на практика

Адаптиране на метода към видео чрез маскиране на пространствено-времеви кръпки към модели за разпознаване на действие преди обучение (VideoMAE).

Адаптиране на метода към видео чрез маскиране на пространствено-времеви кръпки към модели за разпознаване на действия преди обучение (VideoMAE) Екипите обикновено получават по-добри резултати, когато дефинират прагове за качество предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Маскирани автоенкодери на практика

Предварително обучение за сателитни и въздушни изображения за поддръжка на картографиране на земеползването и откриване на промени без ръчни етикети.

Предварително обучение за сателитни и въздушни изображения за подпомагане на картографиране на земеползването и откриване на промени без ръчни етикети Екипите обикновено получават по-добри резултати, когато предварително определят праговете на качеството, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Рискове и предпазни огради

!

Правата върху изображението и съгласието могат да се превърнат в правни рискове, ако произходът е неясен.

!

Производителността на модела може да варира в зависимост от осветлението, демографските данни и средата.

!

Фалшивите положителни резултати могат да останат незабелязани, освен ако не се наблюдават праговете на достоверност.

Пътна карта за изпълнение

1

Определете критерии за приемане за прецизност, извикване и разходи за грешки.

Определете критерии за приемане за прецизност, извикване и разходи за грешки. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

2

Тествайте с данни, които съответстват на реалните производствени условия.

Тествайте с данни, които съответстват на реалните производствени условия. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

3

Добавете преглед от човек за прогнози с ниска степен на сигурност или с голямо въздействие.

Добавете преглед от човек за прогнози с ниска степен на сигурност или с голямо въздействие. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

4

Проследявайте дрейфа на модела и проверявайте отново след промени в камерата или набора от данни.

Проследявайте дрейфа на модела и проверявайте отново след промени в камерата или набора от данни. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

Продължете да изследвате