Audio AI Itọsọna

Ni afiwe WaveGAN Vocoder

Parallel WaveGAN jẹ vocoder nkankikan ti o yara ti o yi mel-spectrogram kan sinu igbi ohun afetigbọ aise nipa lilo GAN kekere kan, ti n ṣe ipilẹṣẹ gbogbo awọn ayẹwo ni ẹẹkan.

Akopọ

Parallel WaveGAN jẹ vocoder nkankikan ti o yara ti o yi mel-spectrogram kan sinu igbi ohun afetigbọ aise nipa lilo GAN kekere kan, ti n ṣe ipilẹṣẹ gbogbo awọn ayẹwo ni ẹẹkan. O ṣe pataki nitori pe o funni ni akoko gidi-gidi, ọrọ ti o ni agbara giga pẹlu awoṣe iwapọ kan.

Parallel WaveGAN Vocoder joko ni awọn ṣiṣan iṣẹ ohun-AI ti o yi ọrọ pada, orin, ati ohun fun ibaraẹnisọrọ, iraye si, ati iṣelọpọ media.

Jin Dive

Vocoder jẹ ipele ikẹhin ti opo gigun ti epo TTS: o ṣe iyipada maapu ẹya ẹya akositiki (nigbagbogbo mel-spectrogram) sinu igbi ohun gangan ti o gbọ. Parallel WaveGAN, ti a dabaa nipasẹ Yamamoto, Song, ati Kim ni ọdun 2019, ṣe eyi pẹlu olupilẹṣẹ ara WaveNet-autoregressive ti kii ṣe ikẹkọ bi nẹtiwọọki atako ti ipilẹṣẹ. Dipo asọtẹlẹ apẹẹrẹ ohun kan ni akoko kan bii WaveNet atilẹba, o ṣe agbejade gbogbo igbi igbi ni afiwe, jẹ ki o yara yiyara. Ohunelo bọtini rẹ daapọ ipadanu adversarial pẹlu adanu akoko kukuru-pupọ Fourier transform (STFT), nitorinaa awoṣe baamu ifihan agbara gidi kọja ọpọlọpọ awọn akoko ati awọn iwọn igbohunsafẹfẹ. Abajade jẹ olupilẹṣẹ kekere (ni ayika awọn aye 1.4 million) ti o nṣiṣẹ ni ọpọlọpọ igba yiyara ju akoko gidi lọ lori GPU kan.

Imọ-imọ-ẹrọ

Olupilẹṣẹ jẹ nẹtiwọọki ti o gbooro-convolution ti o ni iloniniye lori mel-spectrogram ati igbewọle ariwo kan, ariwo aworan aworan pẹlu awọn ẹya taara si awọn ayẹwo. Ikẹkọ ni apapọ dinku ipadanu STFT ipinnu-pupọ, ti a ṣe iṣiro nipasẹ fifiwera awọn iwoye titobi ni ọpọlọpọ awọn iwọn FFT ati awọn gigun hop, ati ipadanu ọta lati ọdọ ẹlẹyamẹya ti n ṣe idajọ otitọ. Oro STFT naa ṣe iduro ati mu ikẹkọ adversarial pọ si, yiya awọn alaye ti o dara mejeeji ati apẹrẹ irisi gbooro laisi distillation.

Mastering Parallel WaveGAN Vocoder

Parallel WaveGAN jẹ vocoder nkankikan ti o yara ti o yi mel-spectrogram kan sinu igbi ohun afetigbọ aise nipa lilo GAN kekere kan, ti n ṣe ipilẹṣẹ gbogbo awọn ayẹwo ni ẹẹkan. O ṣe pataki nitori pe o funni ni akoko gidi-gidi, ọrọ ti o ni agbara giga pẹlu awoṣe iwapọ kan. Parallel WaveGAN Vocoder joko ni awọn ṣiṣan iṣẹ ohun-AI ti o yi ọrọ pada, orin, ati ohun fun ibaraẹnisọrọ, iraye si, ati iṣelọpọ media. Lati kọ oye ti o jinlẹ, tọju Parallel WaveGAN Vocoder bi awoṣe iṣẹ, kii ṣe ẹya ẹyọkan: ṣalaye awọn abajade ti o fẹ, ṣalaye awọn arosọ, ati ya sọtọ ohun ti eto le ṣe ni igbẹkẹle lati ohun ti o tun nilo idajọ amoye.

Ni iṣe, awọn ẹgbẹ ti o lagbara ni lilo Parallel WaveGAN Vocoder ṣe itọju didara, airi, ati igbanilaaye gẹgẹbi awọn ẹya pataki kanna ti ilana imuṣiṣẹ. Wọn ṣe akọsilẹ awọn ibeere aṣeyọri ti o fojuhan, idanwo lodi si data ojulowo ati ṣiṣan iṣẹ, ati atunbere ti o da lori awọn ilana ikuna ti a ṣakiyesi dipo awọn bori ala-akoko kan. Eyi ni ibiti oye imọ-jinlẹ yipada si agbara ti o tọ kọja ọja, eto imulo, ati awọn iṣẹ ṣiṣe.

O ṣe ilọsiwaju iraye si nipasẹ transcription, alaye, ati awọn atọkun ohun. Ni akoko kanna, ilokulo ohun ati awọn eewu imisi eniyan n pọ si nigbati igbanilaaye ba sonu. Ọna resilient julọ julọ ni lati darapọ iyara idanwo pẹlu ibawi ijọba: ṣiṣe awọn awakọ awakọ, mu ẹri mu, ṣe atẹjade awọn iwe ipinnu, ati imudojuiwọn awọn aabo nigbagbogbo bi ihuwasi awoṣe, awọn ireti olumulo, ati awọn ibeere ilana ti dagbasoke.

Ipa Ilana

O ṣe ilọsiwaju iraye si nipasẹ transcription, alaye, ati awọn atọkun ohun.

O ṣe ilọsiwaju iraye si nipasẹ transcription, alaye, ati awọn atọkun ohun. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.

Awọn ẹgbẹ Media le firanṣẹ ohun didan yiyara pẹlu awọn isuna-owo kekere.

Awọn ẹgbẹ Media le firanṣẹ ohun didan yiyara pẹlu awọn isuna-owo kekere. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.

Awọn ọna ṣiṣe ti nkọju si alabara le ṣe ilana awọn ibaraẹnisọrọ sisọ ni iwọn nla.

Awọn ọna ṣiṣe ti nkọju si alabara le ṣe ilana awọn ibaraẹnisọrọ sisọ ni iwọn nla. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.

Ojo iwaju ti Parallel WaveGAN Vocoder

Parallel WaveGAN ṣe iranlọwọ lati ṣe agbekalẹ awọn vocoders GAN bi aiyipada adaṣe, ati adanu STFT ipinnu-pupọ rẹ han ni bayi kọja awọn aṣeyọri bi HiFi-GAN ati ọpọlọpọ awọn eto ṣiṣanwọle. Ilana itọka si ọna ti o kere ju nigbagbogbo, awọn oluranlọwọ ẹrọ lori ẹrọ, awọn iranlọwọ igbọran, ati iyipada ohun laaye, pẹlu awọn vocoders agbaye ti o ṣe akopọ si awọn agbọrọsọ ti a ko rii. Reti isọpọ wiwọ pẹlu opin-si-opin TTS ati imuṣiṣẹ daradara lori alagbeka ati awọn eerun ifibọ.

Real-World imuse

Iṣẹjade ọrọ akoko gidi ni awọn oluranlọwọ ohun alagbeka nibiti aisi ati iwọn awoṣe ṣe pataki

Ṣiṣẹ bi olupilẹṣẹ igbi fọọmu ti a so pọ pẹlu awọn awoṣe akositiki bii Tacotron 2 tabi FastSpeech

Ọrọ-si-ọrọ lori ẹrọ fun awọn irinṣẹ iraye si ti ko le gbarale awọsanma

Awọn ọna ṣiṣe iyipada ohun ti o tun ṣe awọn spectrogram ti o yipada si ohun afetigbọ ohun adayeba

Awọn Ilana imuse

Parallel WaveGAN Vocoder ni iwa

Iṣẹjade ọrọ akoko gidi ni awọn oluranlọwọ ohun alagbeka nibiti aisi ati iwọn awoṣe ṣe pataki.

Ijade ọrọ akoko gidi ni awọn oluranlọwọ ohun alagbeka nibiti airi ati ọrọ iwọn awoṣe Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna igbega eniyan fun awọn ọran eti, ati tọpa awọn anfani iṣelọpọ mejeeji ati awọn idiyele aṣiṣe lori akoko.

Parallel WaveGAN Vocoder ni iwa

Ṣiṣẹ bi olupilẹṣẹ igbi fọọmu so pọ pẹlu awọn awoṣe akositiki bii Tacotron 2 tabi FastSpeech.

Ṣiṣẹ bi olupilẹṣẹ igbi fọọmu ti a so pọ pẹlu awọn awoṣe akositiki bii Tacotron 2 tabi Awọn ẹgbẹ FastSpeech nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa awọn anfani iṣelọpọ mejeeji ati awọn idiyele aṣiṣe lori akoko.

Parallel WaveGAN Vocoder ni iwa

Ọrọ-si-ọrọ lori ẹrọ fun awọn irinṣẹ iraye si ti ko le gbarale awọsanma.

Ọrọ-si-ọrọ ẹrọ lori ẹrọ fun awọn irinṣẹ iraye si ti ko le gbarale awọn ẹgbẹ awọsanma nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa awọn anfani iṣelọpọ mejeeji ati awọn idiyele aṣiṣe lori akoko.

Parallel WaveGAN Vocoder ni iwa

Awọn ọna ṣiṣe iyipada ohun ti o tun ṣe awọn spectrogram ti o yipada si ohun afetigbọ ohun adayeba.

Awọn ọna ṣiṣe iyipada ohun ti o tun ṣe awọn spectrogram ti o yipada si awọn ẹgbẹ ohun afetigbọ ohun adayeba nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa awọn anfani iṣelọpọ mejeeji ati awọn idiyele aṣiṣe lori akoko.

Awọn ewu & Awọn ọna iṣọ

!

ilokulo ohun ati awọn ewu afarawe ṣe pọ si nigbati igbanilaaye ba sonu.

!

Yiye le ju silẹ kọja awọn asẹnti, awọn ede-ede, tabi awọn agbegbe alariwo.

!

Ohun afetigbọ sintetiki le jẹ aṣiṣe fun ọrọ ododo laisi isamisi to yege.

Ilana Ilana imuse

1

Gba ifọkansi ti o fojuhan fun gbigba ohun, ti ẹda, ati ilotunlo.

Gba ifọkansi ti o fojuhan fun gbigba ohun, ti ẹda, ati ilotunlo. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.

2

Didara idanwo kọja awọn agbohunsoke oniruuru ati awọn ipo abẹlẹ.

Didara idanwo kọja awọn agbohunsoke oniruuru ati awọn ipo abẹlẹ. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.

3

Ṣetumo nigbati eniyan gbọdọ ṣe atunyẹwo tabi fọwọsi awọn abajade.

Ṣetumo nigbati eniyan gbọdọ ṣe atunyẹwo tabi fọwọsi awọn abajade. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.

4

Aami ohun sintetiki ki o tọju awọn igbasilẹ provenance fun iṣiro.

Aami ohun sintetiki ki o tọju awọn igbasilẹ provenance fun iṣiro. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.

Tesiwaju Ṣiṣawari