GUIDE IA audio

Vokoder bu sukkandiko ci debit WaveGlow

WaveGlow vocodeur neuronal la bu bawoo ci NVIDIA, muy boole forme onde yu bawoo ci spectrogram mel ci benn yoon kese te du am benn régression.

Résumé

WaveGlow vocodeur neuronal la bu bawoo ci NVIDIA, muy boole forme onde yu bawoo ci spectrogram mel ci benn yoon kese te du am benn régression. Dafa am solo ndax dafay joxe audio bu baax te gëna gaaw ci waxtu dëgg, jëfandikoo lu yomb lu mëna ñàkk.

WaveGlow Flow-Based Vocoder mingi toog ci biir ay liggéeyu audio-IA yuy soppi kàddu, music, ak son ngir jokkoo, yombal jëfandikoo gi, ak defar media.

Plongeur bu xóot

WaveGlow, bi Prenger, Valle, ak Catanzaro génne ci NVIDIA ci 2018, dafa boole xalaat yu bawoo ci Glow ak WaveNet ngir defar vocoder bu gaaw te yomb tàggat. Vocoder GAN wuute na ak vocoder yi, ndax dafay normalise : dafay jàng benn kart buñ mëna soppi diggante distribution Gaussienne bu yomb ak forme onde audio, te dafa aju ci mel-spectrogram bi. Taggat yaram dafay yokk log-likelihood bi ci done yi, kon soxlawul benn diskriminatër bu wuute, amul benn auto-regression, te amul benn distillation bu am ñaari reso jàngalekat-ndongo bi njëkka am ci WaveNet parallèle. Ngir defar audio dangay jël misaalu bruit Gaussian ba noppi nga doxal reso buñ mëna soppi ci anam wu dellu ginaaw. WaveGlow dafay defar kàddu yu am kalite bu méngoo ak WaveNet ci noonu muy synthesize lu gëna gaaw ci waxtu dëgg ci GPU bu bees bi.

Gis-gis xarala

WaveGlow dafay jël jéego yuñ mëna soppi, bu nekk ci ñoom boole ci couche couplage affine ak benn convolution 1x1 buñ mëna soppi buñ leble ci Glow. Misali audio yi dañu leen di boole ci ay vecteur jaaraleko ci ab operaasioŋ squeeze suko defee ay couche couplage mëna leen soppi ci anam wu jaar yoon. Ndax jéego bu nekk mën nañu ko soppi, yoon wi jëm kanam dafay xayma limu mëna am ci tàggat yaram, yoon wi jëm ginaaw dafay méngale bruit bi ak audio bi ngir mëna am inference. Benn reso ak benn mébet log-likelihood bu baaxul mooy tax tàggat yaram gëna dëgër te yomb.

Vocoder bu sukkandiko ci WaveGlow

WaveGlow vocodeur neuronal la bu bawoo ci NVIDIA, muy boole forme onde yu bawoo ci spectrogram mel ci benn yoon kese te du am benn régression. Dafa am solo ndax dafay joxe audio bu baax te gëna gaaw ci waxtu dëgg, jëfandikoo lu yomb lu mëna ñàkk. WaveGlow Flow-Based Vocoder mingi toog ci biir ay liggéeyu audio-IA yuy soppi kàddu, music, ak son ngir jokkoo, yombal jëfandikoo gi, ak defar media. Ngir tabax xam-xam bu xóot, jàppal WaveGlow Flow-Based Vocoder ni xeetu liggéey, du benn man-man: leeral njariñ yi nga bëgg, leeral xalaat yi, ak tàqale li sistem bi mëna def ci anam wu wóor ak li ba leegi soxla àtteb kàngam.

Ci jëf, ekip yu am doole yiy jëfandikoo WaveGlow Flow-Based Vocoder dañuy jàppee kalite, latency, ak nangu ni cër yu am solo ci pexem dugal. Dañuy bind kritër yu leer ngir am ndam, natt leen ci done yu dëggu ak def liggéey, ba noppi ñu baamtu ci anamu ñàkka mëna seetlu, du ci benn yoon benchmark wins. Mooy barab bi xam-xam theorie bi di soppiku nekk kàttan buy yàgg ci produit yi, ci politik yi ak ci liggéey yi.

Dafay gëna yombal jëfandikoo gi jaaraleko ci transkripsioŋ, nettali ak interfaasu baat. Ci jamano jooju, risku jëfandikoo Baat bu baaxul ak niru ak nit dafay gëna yokk sudee nanguwul. Xeetu jëf bi gëna dëgër mooy boole gaawaayu jàngat ak disipline nguur: doxal pilote, jàpp firnde, siiwal dogal yi, ak wéy di yeesal kaaraange gi ci anam wi ñuy doxalee, li jëfandikukat bi di xaar, ak sàrti sàrt yi di jëm kanam.

njeextalu pexe

Dafay gëna yombal jëfandikoo gi jaaraleko ci transkripsioŋ, nettali ak interfaasu baat.

Dafay gëna yombal jëfandikoo gi jaaraleko ci transkripsioŋ, nettali ak interfaasu baat. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.

Ekipu mejaa yi mën nañu yónnee audio bu leer ci anam wu gëna gaaw te seen xaalis gëna néew.

Ekipu mejaa yi mën nañu yónnee audio bu leer ci anam wu gëna gaaw te seen xaalis gëna néew. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.

Sistem yiy jàkkarloo ak kiliyaan bi mën nañu def waxtaan ci anam wu gëna yaatu.

Sistem yiy jàkkarloo ak kiliyaan bi mën nañu def waxtaan ci anam wu gëna yaatu. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.

Ëlëgu vocoder bu sukkandiko ci WaveGlow

WaveGlow dafa wane ni vocoder yu sell yi mën nañu xëcc kalite autoregressive, di indi jafe-jafe ci model audio yi ci topp. Yombaay bimu ñàkk benn yoon mingi wéy di xëcc nit ñi, waaye vocoders GAN yu melni HiFi-GAN leegi dañuy faral di am ndam ci dayo ak gaawaay. Bu ñu xoolee ci kanam, xalaat yu lalu ci debit ak debit-matching ñu ngi dellu ci TTS yu bees yi ci wetu diffusion, ak WaveGlow-style invertible designs ñu ngi wéy di joxe leeral ci gëstu ci njub, mëna saytu, ak defar forme vague bu baax.

Doxal ci àdduna dëgg

boole ak Tacotron 2 ci gasoduc TTS bu NVIDIA ngir defar kàddu yu am kalite studio

Synthese kàddu GPU bu gaaw ngir nettali, dubbing ak defar ëmbiit

Defar tàggat ak demo audio ci gëstu fu tàggat yaram bu amul benn ñàkk moo taamu

Baatu génnekaay bu mëna génne ci jamono dëgg ci sistem yiy weccoo xalaat yuy dawal ci kaw aparey NVIDIA

Modèlu jëfandikoo

Vocoder bu sukkandiko ci WaveGlow ci jëf

Ñu boole ko ak Tacotron 2 ci gasoduc TTS bu NVIDIA ngir génne kàddu yu am kalite studio.

Pairing ak Tacotron 2 ci NVIDIA's reference TTS pipeline ngir génne kàddu yu baax ci studio bi. Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee ay pursàntaasu kalite ci kanam, tëye yoonu eskalaasioŋ nit ngir jafe-jafe yi, ba noppi topp njariñu liggéey bi ak njëgu njuumte yi ci diir bu gàtt.

Vocoder bu sukkandiko ci WaveGlow ci jëf

Synthese kàddu yu gaaw ci GPU ngir nettali, dubbing ak defar ëmbiit li ñuy liggéey.

GPU gaaw synthesis kàddu synthesis ngir nettali, dubbing, ak ëmbiit sos workflows Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee thresholds kalite ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ak topp njariñu produit ak njëgu njuumte ci diir bi.

Vocoder bu sukkandiko ci WaveGlow ci jëf

Defar tàggat ak demo audio ci gëstu fu tàggat yaram bu amul benn ñàkk moo taamu.

Defar tàggat ak demo audio ci gëstu fu stabil, tàggat benn-perte lañu taamu. Ekip yi dañuy faral di am njariñ yu gëna baax suñu leeralee threshold yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit ak njëgu njuumte ci diir bi.

Vocoder bu sukkandiko ci WaveGlow ci jëf

Baat bu mëna génne ci jamono dëgg ci sistem yuy weccoo xalaat yuy dawal ci aparey NVIDIA.

Baat bu mëna génne ci jamono dëgg ci sistem yuy weccoo xalaat yiy dawal ci hardware NVIDIA Teams yi dañuy faral di am njariñ yu gëna baax suñu joxee threshold yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit ak njëgu njuumte ci diir bi.

Risk yi ak balustrade yi

!

Jëfandikoo baat ci anam wu jaarul yoon ak niru ak nit dafay gëna yokk sudee nanguwul.

!

Jaar-jaar mën na wàññeeku ci aksan yi, dialect yi wala barab yu bari xumbaay.

!

Audio synthetik mën nañu ko jaawale ak wax ju dëggu sudee amul etiket bu leer.

Roadmap ngir samp gi

1

Wutal ndigal bu leer ngir jàpp baat, klone ak jëfandikoowaat.

Wutal ndigal bu leer ngir jàpp baat, klone ak jëfandikoowaat. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppalu génne gi, tëj bërëb bi, ba noppi yokk jëfandikoo gi.

2

Saytu kalite ci kàddukat yu bari ak anam yu bari ci ginaaw.

Saytu kalite ci kàddukat yu bari ak anam yu bari ci ginaaw. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppalu génne gi, tëj bërëb bi, ba noppi yokk jëfandikoo gi.

3

Mandargal kañ la nit wara xoolaat wala nangu ay génne.

Mandargal kañ la nit wara xoolaat wala nangu ay génne. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppalu génne gi, tëj bërëb bi, ba noppi yokk jëfandikoo gi.

4

Etiketu audio synthetik te nga denc dokimaa ci fimu bawoo ngir mëna lim.

Etiketu audio synthetik te nga denc dokimaa ci fimu bawoo ngir mëna lim. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppalu génne gi, tëj bërëb bi, ba noppi yokk jëfandikoo gi.

Weyal di banneexu