Аудио AI РЪКОВОДСТВО

Разделяне на стъблото на Spleeter

Spleeter е инструмент с отворен код от Deezer, който разделя завършена песен на отделни песни (вокали, барабани, бас и други) с помощта на дълбоко обучение.

Преглед

Spleeter е инструмент с отворен код от Deezer, който разделя завършена песен на отделни песни (вокали, барабани, бас и други) с помощта на дълбоко обучение. Той направи висококачественото отделяне на стъблата бързо, безплатно и достъпно за всеки с лаптоп.

Spleeter Stem Separation се намира в аудио-AI работни процеси, които трансформират реч, музика и звук за комуникация, достъпност и медийно производство.

Дълбоко гмуркане

Spleeter, издаден от компанията за стрийминг на музика Deezer през 2019 г., разделя смесен запис на отделни инструменти. Доставя се в три предварително обучени конфигурации: 2 стебла (вокали плюс акомпанимент), 4 стебла (вокали, барабани, бас, други) и 5 ​​стебла (което добавя пиано). Под капака той използва U-Net конволюционни невронни мрежи, които оперират със спектрограмата на звука, предвиждайки мека маска за всеки източник. Умножаването на маската по оригиналната спектрограма и обръщането обратно към аудиото дава всяко стъбло. Това, което направи Spleeter известен, беше скоростта: той може да разделя аудиото приблизително 100 пъти по-бързо от реално време на GPU. Той се използва широко от диджеи, ремиксьори, транскрибирачи и създатели на караоке и предизвика вълна от конкурентни разделители като Demucs.

Техническа информация

Spleeter работи във времево-честотната област. Аудиото се преобразува в магнитудна спектрограма чрез кратковременна трансформация на Фурие (STFT). U-Net (енкодер-декодер с прескачащи връзки) научава, за източник, маска между 0 и 1 за всеки интервал време-честота. Маскираната спектрограма се комбинира отново с фазата на оригиналната смес, след което обратен STFT реконструира формата на вълната. Тъй като оценява меките маски, а не необработеното аудио, изтичането и повторно използваната фаза причиняват артефакти.

Овладяване на разделянето на стъблото на Spleeter

Spleeter е инструмент с отворен код от Deezer, който разделя завършена песен на отделни песни (вокали, барабани, бас и други) с помощта на дълбоко обучение. Той направи висококачественото отделяне на стъблата бързо, безплатно и достъпно за всеки с лаптоп. Spleeter Stem Separation се намира в аудио-AI работни процеси, които трансформират реч, музика и звук за комуникация, достъпност и медийно производство. За да изградите дълбоко разбиране, третирайте Spleeter Stem Separation като оперативен модел, а не като отделна функция: дефинирайте желаните резултати, изяснете предположенията и отделете това, което системата може да направи надеждно, от това, което все още изисква експертна преценка.

На практика силните екипи, използващи Spleeter Stem Separation, третират качеството, латентността и съгласието като еднакво важни части от стратегията за внедряване. Те документират изрични критерии за успех, тестват срещу реалистични данни и работни потоци и повтарят въз основа на наблюдавани модели на неуспех, а не на еднократни победи в бенчмарка. Това е мястото, където теоретичното разбиране се превръща в трайна способност за продукти, политики и операции.

Той подобрява достъпността чрез интерфейси за транскрипция, дикторски текст и глас. В същото време рисковете от злоупотреба с глас и имитация се увеличават, когато липсва съгласие. Най-устойчивият подход е да се комбинира скоростта на експериментиране с дисциплината на управление: стартирайте пилотни проекти, събирайте доказателства, публикувайте регистрационни файлове за решения и непрекъснато актуализирайте предпазните мерки, докато поведението на модела, очакванията на потребителите и регулаторните изисквания се развиват.

Стратегическо въздействие

Той подобрява достъпността чрез интерфейси за транскрипция, дикторски текст и глас.

Той подобрява достъпността чрез интерфейси за транскрипция, дикторски текст и глас. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Медийните екипи могат да доставят изпипано аудио по-бързо с по-малки бюджети.

Медийните екипи могат да доставят изпипано аудио по-бързо с по-малки бюджети. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Системите, насочени към клиента, могат да обработват устни взаимодействия в по-голям мащаб.

Системите, насочени към клиента, могат да обработват устни взаимодействия в по-голям мащаб. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Бъдещето на разделянето на стъблото на Spleeter

По-нови модели на вълнови домейни като Demucs и хибридни трансформаторни сепаратори сега надминават Spleeter по качество, възстановявайки по-ясни преходни процеси и по-малко артефакти. Тенденцията е към по-висок брой стебла (отделяне на отделни китари или бек вокали), разделяне в реално време на устройството в DAW и телефони и интегриране в приложения за стрийминг за незабавно ремиксиране или достъпност. Самият Spleeter остава популярна базова линия, защото е лек, безплатен и лесен за стартиране, въпреки че изследванията налагат фазово осъзнати и генеративни подходи.

Внедряване в реалния свят

Създаване на незабавни караоке песни чрез премахване на главния вокал от рекламна песен

Диджеи и продуценти, изолиращи барабан или бас ствол, за да изградят ремикси и смеси

Студентите по музика извличат една инструментална линия, за да транскрибират и да упражняват заедно с нея

Възстановяване или почистване на стари записи чрез разделяне и повторно балансиране на кални смеси

Модели на изпълнение

Spleeter Stem Separation на практика

Създаване на незабавни караоке песни чрез премахване на главния вокал от рекламна песен.

Създаване на незабавни караоке песни чрез премахване на главния вокал от комерсиална песен Екипите обикновено получават по-добри резултати, когато определят праговете за качество предварително, поддържат човешки път за ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Spleeter Stem Separation на практика

Диджеи и продуценти, изолиращи барабан или бас ствол, за да изградят ремикси и смеси.

Диджеи и продуценти, изолиращи дръм или бас стебло, за да изградят ремикси и смеси Екипите обикновено получават по-добри резултати, когато определят праговете за качество отпред, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Spleeter Stem Separation на практика

Студентите по музика извличат една инструментална линия, за да транскрибират и да упражняват заедно с нея.

Студентите по музика, които извличат една инструментална линия, за да транскрибират и практикуват заедно с Teams, обикновено получават по-добри резултати, когато дефинират праговете на качеството предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Spleeter Stem Separation на практика

Възстановяване или почистване на стари записи чрез разделяне и повторно балансиране на кални смеси.

Възстановяване или почистване на стари записи чрез разделяне и повторно балансиране на кални смеси Екипите обикновено получават по-добри резултати, когато дефинират праговете на качеството предварително, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Рискове и предпазни огради

!

Рисковете от злоупотреба с глас и имитация се увеличават, когато липсва съгласие.

!

Точността може да спадне при акценти, диалекти или шумна среда.

!

Синтетичното аудио може да бъде сбъркано с автентична реч без ясно етикетиране.

Пътна карта за изпълнение

1

Получете изрично съгласие за улавяне на глас, клониране и повторно използване.

Получете изрично съгласие за улавяне на глас, клониране и повторно използване. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

2

Тествайте качеството при различни високоговорители и фонови условия.

Тествайте качеството при различни високоговорители и фонови условия. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

3

Определете кога човек трябва да прегледа или одобри резултатите.

Определете кога човек трябва да прегледа или одобри резултатите. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

4

Етикетирайте синтетичното аудио и поддържайте записи за произход за отчетност.

Етикетирайте синтетичното аудио и поддържайте записи за произход за отчетност. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

Продължете да изследвате