РЪКОВОДСТВО за визуален AI

Редактиране на кръстосано внимание от подкана към подкана

Prompt-to-Prompt редактира генерирано изображение, като променя текстовата му подкана, докато използва повторно вътрешните карти на вниманието на модела, така че промяната на една дума разменя този елемент, като същевременно запазва останалата част от сцената непокътната.

Преглед

Prompt-to-Prompt редактира генерирано изображение, като променя текстовата му подкана, докато използва повторно вътрешните карти на вниманието на модела, така че промяната на една дума разменя този елемент, като същевременно запазва останалата част от сцената непокътната. Това е редактиране чрез думи, а не чрез пиксели.

Prompt-to-Prompt Cross-Attention Editing принадлежи към работните процеси за компютърно зрение, които интерпретират или генерират визуална медия за анализ, операции и творчество.

Дълбоко гмуркане

Prompt-to-Prompt (Hertz et al., 2022) е техника без обучение за управлявано от текст редактиране в дифузионни модели. Ключовото прозрение е, че картите на кръстосаното внимание, които казват на модела кои региони на изображението трябва да повлияе всяка дума, кодират пространственото оформление на сцената. Когато регенерирате изображение с леко модифицирана подкана, методът инжектира картите на вниманието на оригиналната подкана в новото изпълнение. Замяната на дума, да речем „велосипед“ с „мотоциклет“, разменя този обект, като запазва композицията и фона. Добавянето на дума инжектира вниманието само за непроменените токени, така че се появява нов атрибут, без да се пренарежда всичко. Можете също така да претеглите вниманието на токена, за да засилите или отслабите неговия ефект. Тъй като не изисква фина настройка или маски, той се превърна в основен градивен елемент за много по-късни методи за редактиране, включително генерирането на данни от InstructPix2Pix.

Техническа информация

По време на премахването на шума кръстосаното внимание изчислява за всеки токен пространствена карта на това къде се намира в изображението. Prompt-to-Prompt копира тези карти от оригиналното поколение в редактираното за споделени токени. За размяна на думи картографира вниманието между съответните токени; за добавени думи запазва стари карти и позволява само на нови токени да формират ново внимание; повторното претегляне просто мащабира стойностите на вниманието на токена, като засилва или заглушава визуалното му влияние.

Овладяване на редактирането на кръстосано внимание от подкана към подкана

Prompt-to-Prompt редактира генерирано изображение, като променя текстовата му подкана, докато използва повторно вътрешните карти на вниманието на модела, така че промяната на една дума разменя този елемент, като същевременно запазва останалата част от сцената непокътната. Това е редактиране чрез думи, а не чрез пиксели. Prompt-to-Prompt Cross-Attention Editing принадлежи към работните процеси за компютърно зрение, които интерпретират или генерират визуална медия за анализ, операции и творчество. За да изградите задълбочено разбиране, третирайте редактирането с кръстосано внимание от подкана към подкана като оперативен модел, а не като отделна функция: дефинирайте желаните резултати, изяснете предположенията и отделете това, което системата може да направи надеждно, от това, което все още изисква експертна преценка.

На практика, силни екипи, използващи Редактиране с кръстосано внимание от подкана към подкана, балансират точността с оперативните реалности като качество на данните, вариация на осветлението и последователност на етикетите. Те документират изрични критерии за успех, тестват срещу реалистични данни и работни потоци и повтарят въз основа на наблюдавани модели на неуспех, а не на еднократни победи в бенчмарка. Това е мястото, където теоретичното разбиране се превръща в трайна способност за продукти, политики и операции.

Visual AI може да автоматизира задачи за проверка, откриване и маркиране в мащаб. В същото време правата върху изображението и съгласието могат да се превърнат в правни рискове, ако произходът е неясен. Най-устойчивият подход е да се комбинира скоростта на експериментиране с дисциплината на управление: стартирайте пилотни проекти, събирайте доказателства, публикувайте регистрационни файлове за решения и непрекъснато актуализирайте предпазните мерки, докато поведението на модела, очакванията на потребителите и регулаторните изисквания се развиват.

Стратегическо въздействие

Visual AI може да автоматизира задачи за проверка, откриване и маркиране в мащаб.

Visual AI може да автоматизира задачи за проверка, откриване и маркиране в мащаб. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Творческите екипи могат да създават прототипи на концепции по-бързо с по-малко ръчни ревизии.

Творческите екипи могат да създават прототипи на концепции по-бързо с по-малко ръчни ревизии. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Операциите могат да използват изображения и видео сигнали, които преди са били трудни за обработка.

Операциите могат да използват изображения и видео сигнали, които преди са били трудни за обработка. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Бъдещето на редактирането с кръстосано внимание от подкана към подкана

Кръстосаното манипулиране на вниманието сега е в основата на цяло семейство от контролируеми инструменти за генериране и идеите се разширяват до контрол на вниманието в по-нови архитектури и видео разпространение за времеви последователни редакции. Очаквайте по-тясна интеграция с редактиране на реални изображения чрез инверсия, по-стабилно управление на големи структурни промени и комбинация с модели на инструкции, така че триковете за внимание да се изпълняват невидимо под прост интерфейс на естествен език.

Внедряване в реалния свят

Дизайнер променя „червена кола на улица“ на „синя кола на улица“ и запазва абсолютно същото оформление на сцената.

Илюстратор претегля думата „снежен“, за да направи пейзажа постепенно по-зимен в различни варианти.

Разказвачът сменя „лъв“ с „тигър“ в подкана, за да запази идентична поза и фон за лист с герои.

Изследовател го използва, за да генерира сдвоени изображения преди/след като данни за обучение за редактор, следващ инструкциите.

Модели на изпълнение

Редактиране на кръстосано внимание от подкана към подкана на практика

Дизайнер променя „червена кола на улица“ на „синя кола на улица“ и запазва абсолютно същото оформление на сцената.

Дизайнерът променя „червена кола на улица“ на „синя кола на улица“ и запазва абсолютно същото оформление на сцената. Екипите обикновено получават по-добри резултати, когато определят праговете за качество предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Редактиране на кръстосано внимание от подкана към подкана на практика

Илюстратор претегля думата „снежен“, за да направи пейзажа постепенно по-зимен в различни варианти.

Илюстраторът претегля думата „снежен“, за да направи пейзажа постепенно по-зимен във всички варианти. Екипите обикновено получават по-добри резултати, когато определят праговете за качество предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Редактиране на кръстосано внимание от подкана към подкана на практика

Разказвачът сменя „лъв“ с „тигър“ в подкана, за да запази идентична поза и фон за лист с герои.

Разказвачът сменя „лъв“ с „тигър“ в подкана, за да запази идентична поза и фон за лист с герои. Екипите обикновено получават по-добри резултати, когато определят праговете за качество отпред, поддържат човешки път на ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Редактиране на кръстосано внимание от подкана към подкана на практика

Изследовател го използва, за да генерира сдвоени изображения преди/след като данни за обучение за редактор, следващ инструкциите.

Изследователят го използва, за да генерира сдвоени изображения преди/след като данни за обучение за редактор, следващ инструкции. Екипите обикновено получават по-добри резултати, когато определят праговете на качеството предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Рискове и предпазни огради

!

Правата върху изображението и съгласието могат да се превърнат в правни рискове, ако произходът е неясен.

!

Производителността на модела може да варира в зависимост от осветлението, демографските данни и средата.

!

Фалшивите положителни резултати могат да останат незабелязани, освен ако не се наблюдават праговете на достоверност.

Пътна карта за изпълнение

1

Определете критерии за приемане за прецизност, извикване и разходи за грешки.

Определете критерии за приемане за прецизност, извикване и разходи за грешки. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

2

Тествайте с данни, които съответстват на реалните производствени условия.

Тествайте с данни, които съответстват на реалните производствени условия. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

3

Добавете преглед от човек за прогнози с ниска степен на сигурност или с голямо въздействие.

Добавете преглед от човек за прогнози с ниска степен на сигурност или с голямо въздействие. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

4

Проследявайте дрейфа на модела и проверявайте отново след промени в камерата или набора от данни.

Проследявайте дрейфа на модела и проверявайте отново след промени в камерата или набора от данни. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

Продължете да изследвате