Преглед
Jukebox е невронната мрежа на OpenAI за 2020 г., която генерира необработен музикален звук — пълен с пеещи гласове, инструменти и дори текстове в стила на конкретни изпълнители. Това беше забележително доказателство, че AI може да моделира действителната форма на вълната на музика с дължина на песента, а не само ноти.
Jukebox се намира в аудио-AI работни процеси, които трансформират реч, музика и звук за комуникация, достъпност и медийно производство.
Дълбоко гмуркане
Издаден от OpenAI през април 2020 г., Jukebox генерира музика като сурово аудио, а не като символични ноти, което означава, че произвежда действителния звук, включително вокали. Той беше обучен на приблизително 1,2 милиона песни (около половината на английски език), извлечени от мрежата, съчетани с текстове и метаданни от LyricWiki. Можете да го обусловите от жанр, стил на изпълнител и текст и той ще пее разпознаваемо (макар и мъгляво) като този изпълнител. Резултатите продължават няколко минути. Уловката е в бързината и прецизността: генерирането беше изключително бавно, отне около девет часа, за да изобрази една минута аудио, а резултатите са с приглушено, шумно качество. Jukebox беше изследване, а не полиран продукт, но промени очакванията за това, което беше възможно.
Техническа информация
Jukebox компресира сурово аудио с помощта на VQ-VAE автоенкодери при три времеви резолюции, превръщайки дълга форма на вълната в много по-къса последователност от дискретни кодове. След това авторегресивните трансформатори предсказват тези кодове един по един, в зависимост от изпълнител, жанр и текст, а модулите за семплиране добавят високочестотни детайли. Декодирането на кодовете от най-ниско ниво обратно до форма на вълната от 44,1 kHz е това, което прави генерирането толкова бавно, защото милиони аудио проби трябва да бъдат произведени последователно.
Овладяване на джубокс
Jukebox е невронната мрежа на OpenAI за 2020 г., която генерира необработен музикален звук — пълен с пеещи гласове, инструменти и дори текстове в стила на конкретни изпълнители. Това беше забележително доказателство, че AI може да моделира действителната форма на вълната на музика с дължина на песента, а не само ноти. Jukebox се намира в аудио-AI работни процеси, които трансформират реч, музика и звук за комуникация, достъпност и медийно производство. За да изградите дълбоко разбиране, третирайте Jukebox като оперативен модел, а не като отделна функция: дефинирайте желаните резултати, изяснете предположенията и отделете това, което системата може да направи надеждно, от това, което все още изисква експертна преценка.
На практика силните екипи, използващи Jukebox, третират качеството, латентността и съгласието като еднакво важни части от стратегията за внедряване. Те документират изрични критерии за успех, тестват срещу реалистични данни и работни потоци и повтарят въз основа на наблюдавани модели на неуспех, а не на еднократни победи в бенчмарка. Това е мястото, където теоретичното разбиране се превръща в трайна способност за продукти, политики и операции.
Той подобрява достъпността чрез интерфейси за транскрипция, дикторски текст и глас. В същото време рисковете от злоупотреба с глас и имитация се увеличават, когато липсва съгласие. Най-устойчивият подход е да се комбинира скоростта на експериментиране с дисциплината на управление: стартирайте пилотни проекти, събирайте доказателства, публикувайте регистрационни файлове за решения и непрекъснато актуализирайте предпазните мерки, докато поведението на модела, очакванията на потребителите и регулаторните изисквания се развиват.
Стратегическо въздействие
Той подобрява достъпността чрез интерфейси за транскрипция, дикторски текст и глас.
Той подобрява достъпността чрез интерфейси за транскрипция, дикторски текст и глас. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.
Медийните екипи могат да доставят изпипано аудио по-бързо с по-малки бюджети.
Медийните екипи могат да доставят изпипано аудио по-бързо с по-малки бюджети. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.
Системите, насочени към клиента, могат да обработват устни взаимодействия в по-голям мащаб.
Системите, насочени към клиента, могат да обработват устни взаимодействия в по-голям мащаб. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.
Внедряване в реалния свят
Изследователи, изучаващи как невронните мрежи могат да моделират необработено аудио и пеещи гласове в дълга форма, използвайки Jukebox като референтна архитектура.
Музиканти и любители, създаващи зловещи, lo-fi „AI кавъри“, които пеят нови текстове в грубия стил на избран изпълнител.
Преподаватели, демонстриращи прехода от генериране на ноти в MIDI стил до пълен синтез на необработен звук с вокали.
Звукови дизайнери и експериментални артисти, събиращи мъгливите, съновидни текстури на Jukebox като суровина за ремиксиране и колаж.
Модели на изпълнение
Джубокс на практика
Изследователи, изучаващи как невронните мрежи могат да моделират необработено аудио и пеещи гласове в дълга форма, използвайки Jukebox като референтна архитектура.
Изследователи, изучаващи как невронните мрежи могат да моделират необработено аудио и пеещи гласове в дълга форма, използвайки Jukebox като референтна архитектура Екипите обикновено получават по-добри резултати, когато дефинират прагове за качество предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.
Джубокс на практика
Музиканти и любители, създаващи зловещи, lo-fi „AI кавъри“, които пеят нови текстове в грубия стил на избран изпълнител.
Музиканти и любители, генериращи зловещи, lo-fi „AI кавъри“, които пеят нови текстове в грубия стил на избран изпълнител. Екипите обикновено получават по-добри резултати, когато определят праговете за качество предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.
Джубокс на практика
Преподаватели, демонстриращи прехода от генериране на ноти в MIDI стил до пълен синтез на необработен звук с вокали.
Преподаватели, демонстриращи скока от генериране на бележки в стил MIDI до пълен синтез на необработен звук с вокали Екипите обикновено получават по-добри резултати, когато определят праговете на качеството предварително, поддържат човешка пътека за ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.
Джубокс на практика
Звукови дизайнери и експериментални артисти, събиращи мъгливите, съновидни текстури на Jukebox като суровина за ремиксиране и колаж.
Звукови дизайнери и експериментални художници, събиращи мъгливите, подобни на сънища текстури на Jukebox като суровина за ремиксиране и колаж Екипите обикновено получават по-добри резултати, когато дефинират праговете за качество отпред, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.
Рискове и предпазни огради
Рисковете от злоупотреба с глас и имитация се увеличават, когато липсва съгласие.
Точността може да спадне при акценти, диалекти или шумна среда.
Синтетичното аудио може да бъде сбъркано с автентична реч без ясно етикетиране.
Пътна карта за изпълнение
Получете изрично съгласие за улавяне на глас, клониране и повторно използване.
Получете изрично съгласие за улавяне на глас, клониране и повторно използване. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.
Тествайте качеството при различни високоговорители и фонови условия.
Тествайте качеството при различни високоговорители и фонови условия. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.
Определете кога човек трябва да прегледа или одобри резултатите.
Определете кога човек трябва да прегледа или одобри резултатите. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.
Етикетирайте синтетичното аудио и поддържайте записи за произход за отчетност.
Етикетирайте синтетичното аудио и поддържайте записи за произход за отчетност. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.