Akopọ
UnivNet jẹ olugbohunsafẹfẹ GAN kan ti o ṣe idajọ ohun afetigbọ nipa lilo awọn iwoye iwoye pupọ ti a ṣe iṣiro ni oriṣiriṣi awọn ipinnu STFT, didasilẹ alaye igbohunsafẹfẹ giga. O ṣe ifọkansi lati jẹ vocoder gbogbo agbaye ti o ṣe akopọ daradara si awọn agbohunsoke ti a ko rii ati awọn ipo gbigbasilẹ.
Vocoder Multi-Resolution UnivNet joko ni awọn iṣan-iṣẹ ohun-AI ti o yi ọrọ pada, orin, ati ohun fun ibaraẹnisọrọ, iraye si, ati iṣelọpọ media.
Jin Dive
UnivNet, ti a dabaa nipasẹ Jang et al. ni ọdun 2021, koju ailagbara ti o wọpọ si awọn vocoders GAN: muffled tabi awọn igbohunsafẹfẹ giga ti ohun-ọṣọ. Awọn ipo monomono rẹ lori awọn ẹgbẹ-ikun-kikun mel-spectrograms ati lilo awọn iyipada ipo-ayipada (LVC), nibiti awọn kernels convolution ti ṣe asọtẹlẹ lori fo lati awọn ẹya igbewọle ki àlẹmọ naa ṣe deede si akoonu agbegbe. Ero akọle ni iyasoto spectrogram olona-ipinnu (MRSD): dipo ṣiṣe idajọ nikan igbi igbi aise, UnivNet ṣe iṣiro ọpọlọpọ awọn STFT pẹlu oriṣiriṣi awọn window ati awọn titobi hop ati ṣiṣe awọn iyasoto lori awọn titobi spectrogram wọnyẹn. Eyi n tẹ olupilẹṣẹ lati gba awọn alaye iwoye ti o dara mejeeji ati igbekalẹ igba pipẹ ni ẹtọ. Ti ikẹkọ lori ọpọlọpọ awọn agbohunsoke, UnivNet ṣe agbejade ọrọ adayeba fun awọn ohun ti ko rii rara lakoko ikẹkọ, n gba aami agbaye rẹ.
Imọ-imọ-ẹrọ
Iyipada ipo-iyipada UnivNet n ṣe agbekalẹ awọn iwuwo ekuro rẹ ni agbara lati awọn ẹya milimita mimu nipasẹ nẹtiwọọki kernel-sọsọtẹlẹ, nitorinaa igbesẹ akoko kọọkan ni imunadoko ni àlẹmọ-aṣamubadọgba akoonu dipo ekuro pinpin ti o wa titi. Ni idapọ pẹlu iyasọtọ spectrogram olona-ipinnu, eyiti o kọja ọpọlọpọ awọn iṣowo-igbohunsafẹfẹ akoko nigbakanna, eyi taara ni idojukọ ẹgbẹ igbohunsafẹfẹ giga nibiti awọn vocoders GAN ti o rọrun julọ ṣọ lati blur tabi hum.
Mastering UnivNet Olona-opinnu Vocoder
UnivNet jẹ olugbohunsafẹfẹ GAN kan ti o ṣe idajọ ohun afetigbọ nipa lilo awọn iwoye iwoye pupọ ti a ṣe iṣiro ni oriṣiriṣi awọn ipinnu STFT, didasilẹ alaye igbohunsafẹfẹ giga. O ṣe ifọkansi lati jẹ vocoder gbogbo agbaye ti o ṣe akopọ daradara si awọn agbohunsoke ti a ko rii ati awọn ipo gbigbasilẹ. Vocoder Multi-Resolution UnivNet joko ni awọn iṣan-iṣẹ ohun-AI ti o yi ọrọ pada, orin, ati ohun fun ibaraẹnisọrọ, iraye si, ati iṣelọpọ media. Lati kọ oye ti o jinlẹ, tọju UnivNet Multi-Resolution Vocoder bi awoṣe iṣẹ, kii ṣe ẹya ẹyọkan: ṣalaye awọn abajade ti o fẹ, ṣe alaye awọn arosọ, ati lọtọ ohun ti eto le ṣe ni igbẹkẹle lati ohun ti o tun nilo idajọ amoye.
Ni iṣe, awọn ẹgbẹ ti o lagbara ni lilo UnivNet Multi-Resolution Vocoder toju didara, airi, ati igbanilaaye gẹgẹbi awọn ẹya pataki kanna ti ilana imuṣiṣẹ. Wọn ṣe akọsilẹ awọn ibeere aṣeyọri ti o fojuhan, idanwo lodi si data ojulowo ati ṣiṣan iṣẹ, ati atunbere ti o da lori awọn ilana ikuna ti a ṣakiyesi dipo awọn bori ala-akoko kan. Eyi ni ibiti oye imọ-jinlẹ yipada si agbara ti o tọ kọja ọja, eto imulo, ati awọn iṣẹ ṣiṣe.
O ṣe ilọsiwaju iraye si nipasẹ transcription, alaye, ati awọn atọkun ohun. Ni akoko kanna, ilokulo ohun ati awọn eewu imisi eniyan n pọ si nigbati igbanilaaye ba sonu. Ọna resilient julọ julọ ni lati darapọ iyara idanwo pẹlu ibawi ijọba: ṣiṣe awọn awakọ awakọ, mu ẹri mu, ṣe atẹjade awọn iwe ipinnu, ati imudojuiwọn awọn aabo nigbagbogbo bi ihuwasi awoṣe, awọn ireti olumulo, ati awọn ibeere ilana ti dagbasoke.
Ipa Ilana
O ṣe ilọsiwaju iraye si nipasẹ transcription, alaye, ati awọn atọkun ohun.
O ṣe ilọsiwaju iraye si nipasẹ transcription, alaye, ati awọn atọkun ohun. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.
Awọn ẹgbẹ Media le firanṣẹ ohun didan yiyara pẹlu awọn isuna-owo kekere.
Awọn ẹgbẹ Media le firanṣẹ ohun didan yiyara pẹlu awọn isuna-owo kekere. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.
Awọn ọna ṣiṣe ti nkọju si alabara le ṣe ilana awọn ibaraẹnisọrọ sisọ ni iwọn nla.
Awọn ọna ṣiṣe ti nkọju si alabara le ṣe ilana awọn ibaraẹnisọrọ sisọ ni iwọn nla. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.
Real-World imuse
Awọn iṣẹ TTS agbọrọsọ olona ti o gbọdọ dun adayeba lori awọn ohun ti ko wa ni data ikẹkọ
Awọn opo gigun ti cloning ohun nibiti vocoder agbaye kan ti nṣe iranṣẹ ọpọlọpọ awọn agbọrọsọ ibi-afẹde
Iwe ohun afetigbọ giga-giga ati alaye adarọ-ese ti o nilo sibilance agaran ati awọn igbohunsafẹfẹ giga
Vocoder afẹhinti fun awọn eto TTS ipari-si-opin ti o somọ asọtẹlẹ spectrogram kan pẹlu olupilẹṣẹ igbi ti o lagbara
Awọn Ilana imuse
UnivNet Olona-Opin Vocoder ni iwa
Awọn iṣẹ TTS agbọrọsọ olona ti o gbọdọ dun adayeba lori awọn ohun ti ko wa ni data ikẹkọ.
Awọn iṣẹ TTS agbọrọsọ pupọ ti o gbọdọ dun adayeba lori awọn ohun ti ko wa ni data ikẹkọ Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa awọn anfani iṣelọpọ mejeeji ati awọn idiyele aṣiṣe lori akoko.
UnivNet Olona-Opin Vocoder ni iwa
Awọn opo gigun ti cloning ohun nibiti vocoder agbaye kan ti nṣe iranṣẹ ọpọlọpọ awọn agbọrọsọ ibi-afẹde.
Awọn opo gigun ti cloning ohun nibiti vocoder agbaye kan ti nṣe iranṣẹ ọpọlọpọ awọn agbohunsoke ibi-afẹde Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna igbega eniyan fun awọn ọran eti, ati tọpa awọn anfani iṣelọpọ mejeeji ati awọn idiyele aṣiṣe lori akoko.
UnivNet Olona-Opin Vocoder ni iwa
Iwe ohun afetigbọ giga-giga ati alaye adarọ-ese ti o nilo sibilance agaran ati awọn igbohunsafẹfẹ giga.
Iwe ohun afetigbọ giga-giga ati alaye adarọ-ese ti o nilo sibilance agaran ati awọn igbohunsafẹfẹ giga Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna igbega eniyan fun awọn ọran eti, ati tọpa awọn anfani iṣelọpọ mejeeji ati awọn idiyele aṣiṣe lori akoko.
UnivNet Olona-Opin Vocoder ni iwa
Vocoder afẹhinti fun awọn ọna ṣiṣe TTS ipari-si-opin ti o so asọtẹlẹ spectrogram pọ pẹlu olupilẹṣẹ igbi ti o lagbara.
Vocoder afẹyinti fun awọn eto TTS ipari-si-opin ti o ṣe alawẹ-sọ asọtẹlẹ spectrogram kan pẹlu olupilẹṣẹ igbi igbi ti o lagbara Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa mejeeji awọn anfani iṣelọpọ ati awọn idiyele aṣiṣe lori akoko.
Awọn ewu & Awọn ọna iṣọ
ilokulo ohun ati awọn ewu afarawe ṣe pọ si nigbati igbanilaaye ba sonu.
Yiye le ju silẹ kọja awọn asẹnti, awọn ede-ede, tabi awọn agbegbe alariwo.
Ohun afetigbọ sintetiki le jẹ aṣiṣe fun ọrọ ododo laisi isamisi to yege.
Ilana Ilana imuse
Gba ifọkansi ti o fojuhan fun gbigba ohun, ti ẹda, ati ilotunlo.
Gba ifọkansi ti o fojuhan fun gbigba ohun, ti ẹda, ati ilotunlo. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.
Didara idanwo kọja awọn agbohunsoke oniruuru ati awọn ipo abẹlẹ.
Didara idanwo kọja awọn agbohunsoke oniruuru ati awọn ipo abẹlẹ. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.
Ṣetumo nigbati eniyan gbọdọ ṣe atunyẹwo tabi fọwọsi awọn abajade.
Ṣetumo nigbati eniyan gbọdọ ṣe atunyẹwo tabi fọwọsi awọn abajade. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.
Aami ohun sintetiki ki o tọju awọn igbasilẹ provenance fun iṣiro.
Aami ohun sintetiki ki o tọju awọn igbasilẹ provenance fun iṣiro. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.