Аудио AI РЪКОВОДСТВО

Джубокс

Jukebox е невронната мрежа на OpenAI за 2020 г., която генерира необработен музикален звук — пълен с пеещи гласове, инструменти и дори текстове в стила на конкретни изпълнители.

Преглед

Jukebox е невронната мрежа на OpenAI за 2020 г., която генерира необработен музикален звук — пълен с пеещи гласове, инструменти и дори текстове в стила на конкретни изпълнители. Това беше забележително доказателство, че AI може да моделира действителната форма на вълната на музика с дължина на песента, а не само ноти.

Jukebox се намира в аудио-AI работни процеси, които трансформират реч, музика и звук за комуникация, достъпност и медийно производство.

Дълбоко гмуркане

Издаден от OpenAI през април 2020 г., Jukebox генерира музика като сурово аудио, а не като символични ноти, което означава, че произвежда действителния звук, включително вокали. Той беше обучен на приблизително 1,2 милиона песни (около половината на английски език), извлечени от мрежата, съчетани с текстове и метаданни от LyricWiki. Можете да го обусловите от жанр, стил на изпълнител и текст и той ще пее разпознаваемо (макар и мъгляво) като този изпълнител. Резултатите продължават няколко минути. Уловката е в бързината и прецизността: генерирането беше изключително бавно, отне около девет часа, за да изобрази една минута аудио, а резултатите са с приглушено, шумно качество. Jukebox беше изследване, а не полиран продукт, но промени очакванията за това, което беше възможно.

Техническа информация

Jukebox компресира сурово аудио с помощта на VQ-VAE автоенкодери при три времеви резолюции, превръщайки дълга форма на вълната в много по-къса последователност от дискретни кодове. След това авторегресивните трансформатори предсказват тези кодове един по един, в зависимост от изпълнител, жанр и текст, а модулите за семплиране добавят високочестотни детайли. Декодирането на кодовете от най-ниско ниво обратно до форма на вълната от 44,1 kHz е това, което прави генерирането толкова бавно, защото милиони аудио проби трябва да бъдат произведени последователно.

Овладяване на джубокс

Jukebox е невронната мрежа на OpenAI за 2020 г., която генерира необработен музикален звук — пълен с пеещи гласове, инструменти и дори текстове в стила на конкретни изпълнители. Това беше забележително доказателство, че AI може да моделира действителната форма на вълната на музика с дължина на песента, а не само ноти. Jukebox се намира в аудио-AI работни процеси, които трансформират реч, музика и звук за комуникация, достъпност и медийно производство. За да изградите дълбоко разбиране, третирайте Jukebox като оперативен модел, а не като отделна функция: дефинирайте желаните резултати, изяснете предположенията и отделете това, което системата може да направи надеждно, от това, което все още изисква експертна преценка.

На практика силните екипи, използващи Jukebox, третират качеството, латентността и съгласието като еднакво важни части от стратегията за внедряване. Те документират изрични критерии за успех, тестват срещу реалистични данни и работни потоци и повтарят въз основа на наблюдавани модели на неуспех, а не на еднократни победи в бенчмарка. Това е мястото, където теоретичното разбиране се превръща в трайна способност за продукти, политики и операции.

Той подобрява достъпността чрез интерфейси за транскрипция, дикторски текст и глас. В същото време рисковете от злоупотреба с глас и имитация се увеличават, когато липсва съгласие. Най-устойчивият подход е да се комбинира скоростта на експериментиране с дисциплината на управление: стартирайте пилотни проекти, събирайте доказателства, публикувайте регистрационни файлове за решения и непрекъснато актуализирайте предпазните мерки, докато поведението на модела, очакванията на потребителите и регулаторните изисквания се развиват.

Стратегическо въздействие

Той подобрява достъпността чрез интерфейси за транскрипция, дикторски текст и глас.

Той подобрява достъпността чрез интерфейси за транскрипция, дикторски текст и глас. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Медийните екипи могат да доставят изпипано аудио по-бързо с по-малки бюджети.

Медийните екипи могат да доставят изпипано аудио по-бързо с по-малки бюджети. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Системите, насочени към клиента, могат да обработват устни взаимодействия в по-голям мащаб.

Системите, насочени към клиента, могат да обработват устни взаимодействия в по-голям мащаб. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Бъдещето на джубокса

Самият Jukebox е до голяма степен исторически крайъгълен камък сега, заменен от по-бързо разпространение и модели с латентен звук като тези зад Suno и Udio, които генерират песни с качество почти като CD за секунди. Неговите основни идеи - отделни аудио токени и кондициониране на текстовете - живеят в съвременните системи. Очаквайте бъдещите модели на необработен звук да продължат да намаляват времето за генериране, да изострят яснотата на гласа и да добавят фини контроли, докато въпросите за авторските права, които Jukebox повдигна за първи път относно обучението върху записи, защитени с авторски права, стават все по-силни.

Внедряване в реалния свят

Изследователи, изучаващи как невронните мрежи могат да моделират необработено аудио и пеещи гласове в дълга форма, използвайки Jukebox като референтна архитектура.

Музиканти и любители, създаващи зловещи, lo-fi „AI кавъри“, които пеят нови текстове в грубия стил на избран изпълнител.

Преподаватели, демонстриращи прехода от генериране на ноти в MIDI стил до пълен синтез на необработен звук с вокали.

Звукови дизайнери и експериментални артисти, събиращи мъгливите, съновидни текстури на Jukebox като суровина за ремиксиране и колаж.

Модели на изпълнение

Джубокс на практика

Изследователи, изучаващи как невронните мрежи могат да моделират необработено аудио и пеещи гласове в дълга форма, използвайки Jukebox като референтна архитектура.

Изследователи, изучаващи как невронните мрежи могат да моделират необработено аудио и пеещи гласове в дълга форма, използвайки Jukebox като референтна архитектура Екипите обикновено получават по-добри резултати, когато дефинират прагове за качество предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Джубокс на практика

Музиканти и любители, създаващи зловещи, lo-fi „AI кавъри“, които пеят нови текстове в грубия стил на избран изпълнител.

Музиканти и любители, генериращи зловещи, lo-fi „AI кавъри“, които пеят нови текстове в грубия стил на избран изпълнител. Екипите обикновено получават по-добри резултати, когато определят праговете за качество предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Джубокс на практика

Преподаватели, демонстриращи прехода от генериране на ноти в MIDI стил до пълен синтез на необработен звук с вокали.

Преподаватели, демонстриращи скока от генериране на бележки в стил MIDI до пълен синтез на необработен звук с вокали Екипите обикновено получават по-добри резултати, когато определят праговете на качеството предварително, поддържат човешка пътека за ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Джубокс на практика

Звукови дизайнери и експериментални артисти, събиращи мъгливите, съновидни текстури на Jukebox като суровина за ремиксиране и колаж.

Звукови дизайнери и експериментални художници, събиращи мъгливите, подобни на сънища текстури на Jukebox като суровина за ремиксиране и колаж Екипите обикновено получават по-добри резултати, когато дефинират праговете за качество отпред, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Рискове и предпазни огради

!

Рисковете от злоупотреба с глас и имитация се увеличават, когато липсва съгласие.

!

Точността може да спадне при акценти, диалекти или шумна среда.

!

Синтетичното аудио може да бъде сбъркано с автентична реч без ясно етикетиране.

Пътна карта за изпълнение

1

Получете изрично съгласие за улавяне на глас, клониране и повторно използване.

Получете изрично съгласие за улавяне на глас, клониране и повторно използване. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

2

Тествайте качеството при различни високоговорители и фонови условия.

Тествайте качеството при различни високоговорители и фонови условия. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

3

Определете кога човек трябва да прегледа или одобри резултатите.

Определете кога човек трябва да прегледа или одобри резултатите. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

4

Етикетирайте синтетичното аудио и поддържайте записи за произход за отчетност.

Етикетирайте синтетичното аудио и поддържайте записи за произход за отчетност. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

Продължете да изследвате