Преглед
Дифузионните трансформатори (DiTs) заменят конволюционната U-Net в сърцето на генераторите на изображения и видео за гръбнак на Transformer. Тази архитектура захранва водещи системи като Stable Diffusion 3 и OpenAI на Sora и се мащабира забележително добре, когато добавяте изчисления.
Дифузионните трансформатори принадлежат към работни потоци за компютърно зрение, които интерпретират или генерират визуални медии за анализ, операции и творчество.
Дълбоко гмуркане
Дифузионните модели генерират изображения, като започват от чист шум и итеративно го обезшумяват в кохерентна картина. Години наред мрежата, извършваща това обезшумяване, беше U-Net, конволюционна архитектура. Дифузионният трансформатор, представен от Peebles и Xie през 2022 г., заменя U-Net с Transformer. Изображението първо се компресира в латентно пространство, разделя се на малки петна и всеки пластир се превръща в символ, подобно на думи в езиков модел. След това Transformer обработва тези токени със самовнимание при всяка стъпка на премахване на шума. Ключова констатация беше, че производителността на DiT се подобрява предсказуемо, когато увеличавате размера на модела и намалявате размера на корекцията, следвайки чистите закони за мащабиране. Тази мащабируемост е причината системите от текст към видео и текст към изображение от висок клас да мигрират до голяма степен към гръбнаците на Transformer.
Техническа информация
Основна иновация е как DiT инжектират кондициониране като времева стъпка и текстова подкана. Вместо просто свързване, те използват нормализиране на адаптивен слой (adaLN), където мрежата предвижда параметри за мащаб и изместване за нормализиращите слоеве от сигнала за кондициониране. Вариантът adaLN-zero ги инициализира, така че всеки блок започва като функция за идентичност, стабилизирайки обучението. Пачовете се сплескват в токени, обработват се от стандартни трансформаторни блокове със самовнимание, след което се сглобяват отново и декодират обратно в пиксели.
Овладяване на дифузионни трансформатори
Дифузионните трансформатори (DiTs) заменят конволюционната U-Net в сърцето на генераторите на изображения и видео за гръбнак на Transformer. Тази архитектура захранва водещи системи като Stable Diffusion 3 и OpenAI на Sora и се мащабира забележително добре, когато добавяте изчисления. Дифузионните трансформатори принадлежат към работни потоци за компютърно зрение, които интерпретират или генерират визуални медии за анализ, операции и творчество. За да изградите дълбоко разбиране, третирайте дифузионните трансформатори като оперативен модел, а не като отделна функция: дефинирайте желаните резултати, изяснете предположенията и отделете това, което системата може да направи надеждно, от това, което все още изисква експертна преценка.
На практика силни екипи, използващи дифузионни трансформатори, балансират точността с оперативните реалности като качество на данните, вариация на осветлението и последователност на етикетите. Те документират изрични критерии за успех, тестват срещу реалистични данни и работни потоци и повтарят въз основа на наблюдавани модели на неуспех, а не на еднократни победи в бенчмарка. Това е мястото, където теоретичното разбиране се превръща в трайна способност за продукти, политики и операции.
Visual AI може да автоматизира задачи за проверка, откриване и маркиране в мащаб. В същото време правата върху изображението и съгласието могат да се превърнат в правни рискове, ако произходът е неясен. Най-устойчивият подход е да се комбинира скоростта на експериментиране с дисциплината на управление: стартирайте пилотни проекти, събирайте доказателства, публикувайте регистрационни файлове за решения и непрекъснато актуализирайте предпазните мерки, докато поведението на модела, очакванията на потребителите и регулаторните изисквания се развиват.
Стратегическо въздействие
Visual AI може да автоматизира задачи за проверка, откриване и маркиране в мащаб.
Visual AI може да автоматизира задачи за проверка, откриване и маркиране в мащаб. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.
Творческите екипи могат да създават прототипи на концепции по-бързо с по-малко ръчни ревизии.
Творческите екипи могат да създават прототипи на концепции по-бързо с по-малко ръчни ревизии. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.
Операциите могат да използват изображения и видео сигнали, които преди са били трудни за обработка.
Операциите могат да използват изображения и видео сигнали, които преди са били трудни за обработка. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.
Внедряване в реалния свят
Sora на OpenAI използва гръбнак на Transformer върху пространствено-времеви пачове, за да генерира дългоминутни видеоклипове с висока точност от текстови подкани.
Stable Diffusion 3 използва мултимодален дифузионен трансформатор (MMDiT) за по-добро подравняване на генерираните изображения с подробни текстови описания.
Изследователите мащабират DiT до милиарди параметри и наблюдават предсказуемо подобряване на качеството на изображението, насочвайки решенията за изчислителен бюджет.
Студио използва базиран на DiT модел за разширяване на къси клипове, като третира допълнителните видео кадри като допълнителни жетони за корекция за премахване на шума.
Модели на изпълнение
Дифузионни трансформатори на практика
Sora на OpenAI използва гръбнак на Transformer върху пространствено-времеви пачове, за да генерира дългоминутни видеоклипове с висока точност от текстови подкани.
OpenAI на Sora използва гръбнак на Transformer върху пачове за пространство-време, за да генерира дългоминутни видеозаписи с висока вярност от текстови подкани. Екипите обикновено получават по-добри резултати, когато предварително определят прагове за качество, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.
Дифузионни трансформатори на практика
Stable Diffusion 3 използва мултимодален дифузионен трансформатор (MMDiT) за по-добро подравняване на генерираните изображения с подробни текстови описания.
Stable Diffusion 3 приема мултимодален дифузионен трансформатор (MMDiT) за по-добро подравняване на генерираните изображения с подробни текстови описания. Екипите обикновено получават по-добри резултати, когато определят праговете на качеството предварително, поддържат човешки път на ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.
Дифузионни трансформатори на практика
Изследователите мащабират DiT до милиарди параметри и наблюдават предсказуемо подобряване на качеството на изображението, насочвайки решенията за изчислителен бюджет.
Изследователите мащабират DiT до милиарди параметри и наблюдават предсказуемо подобряване на качеството на изображението, насочвайки решенията за изчислителен бюджет. Екипите обикновено получават по-добри резултати, когато дефинират предварително прагове за качество, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.
Дифузионни трансформатори на практика
Студио използва базиран на DiT модел за разширяване на къси клипове, като третира допълнителните видео кадри като допълнителни жетони за корекция за премахване на шума.
Студио използва базиран на DiT модел за разширяване на къси клипове, като третира допълнителните видео кадри като допълнителни токени за корекция за обезшумяване. Екипите обикновено получават по-добри резултати, когато дефинират прагове за качество отпред, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.
Рискове и предпазни огради
Правата върху изображението и съгласието могат да се превърнат в правни рискове, ако произходът е неясен.
Производителността на модела може да варира в зависимост от осветлението, демографските данни и средата.
Фалшивите положителни резултати могат да останат незабелязани, освен ако не се наблюдават праговете на достоверност.
Пътна карта за изпълнение
Определете критерии за приемане за прецизност, извикване и разходи за грешки.
Определете критерии за приемане за прецизност, извикване и разходи за грешки. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.
Тествайте с данни, които съответстват на реалните производствени условия.
Тествайте с данни, които съответстват на реалните производствени условия. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.
Добавете преглед от човек за прогнози с ниска степен на сигурност или с голямо въздействие.
Добавете преглед от човек за прогнози с ниска степен на сигурност или с голямо въздействие. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.
Проследявайте дрейфа на модела и проверявайте отново след промени в камерата или набора от данни.
Проследявайте дрейфа на модела и проверявайте отново след промени в камерата или набора от данни. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.