Akopọ
HiFi-GAN jẹ vocoder ti ipilẹṣẹ-adversarial ti o yi mel-spectrogram kan sinu igbi ohun afetigbọ aise kan ti o fẹrẹẹ lesekese, ti n ṣe agbejade ọrọ didara ile-iṣere yiyara ju akoko gidi lọ. O di ipele ipari ipari ti ọrọ-si-ọrọ ode oni nitori pe o yara, iwuwo fẹẹrẹ, ati lile lati ṣe iyatọ si awọn gbigbasilẹ gidi.
HiFi-GAN ati GAN Vocoders joko ni awọn iṣan-iṣẹ ohun-AI ti o yi ọrọ, orin, ati ohun pada fun ibaraẹnisọrọ, iraye si, ati iṣelọpọ media.
Jin Dive
Vocoder jẹ igbesẹ ti o kẹhin ni ọpọlọpọ awọn opo gigun ti TTS: awoṣe bi Tacotron tabi FastSpeech ṣe asọtẹlẹ mel-spectrogram (aworan iwapọ ti igbohunsafẹfẹ ju akoko lọ), ati pe vocoder kun ni awọn apẹẹrẹ igbi igbi gangan. Awọn vocoders neural ni kutukutu bii WaveNet dun nla ṣugbọn ti ipilẹṣẹ iwe-apẹẹrẹ-nipasẹ-apẹẹrẹ, ti o jẹ ki wọn lọra ni irora. HiFi-GAN, ti a tu silẹ nipasẹ Kong, Kim, ati Bae ni ọdun 2020, rọpo loop autoregressive yẹn pẹlu olupilẹṣẹ ifunni-siwaju ẹyọkan ti o gba ikẹkọ ọta. Ẹtan bọtini rẹ ni lilo awọn alayatọ lọpọlọpọ ti o ṣe idajọ ohun ni awọn iwọn oriṣiriṣi ati lori awọn ilana igbakọọkan ti o yatọ, fi ipa mu monomono lati gba mejeeji ọrọ ti o dara ati akoko ipolowo ni ẹtọ. Abajade jẹ ọrọ 22 kHz ti iṣelọpọ awọn ọgọọgọrun awọn akoko yiyara ju akoko gidi lọ lori GPU kan, pẹlu ohun afetigbọ ilẹ-otitọ didara.
Imọ-imọ-ẹrọ
Olupilẹṣẹ HiFi-GAN ṣe agbega mel-spectrogram nipasẹ awọn iyipada ti a gbejade, pẹlu awọn bulọọki aaye Olona-Gbigba tolera ti o dapọ awọn titobi ekuro ati awọn iwọn lati mu awọn ilana igbi ti o yatọ. Awọn idile ẹlẹyamẹya meji ṣe ọlọpa: Onipinpin-akoko Olona-pupọ tun ṣe ifihan ifihan 1D sinu awọn grids 2D ni awọn alakọbẹrẹ bii 2, 3, 5, 7, 11 lati yẹ akoko ipolowo, ati Onipinpin Olona-iwọn ṣe ayẹwo fọọmu igbi ni ọpọlọpọ awọn ipinnu isalẹ. Mel-spectrogram ati awọn adanu ibaamu ẹya jẹ ki ikẹkọ jẹ iduroṣinṣin.
Titunto si HiFi-GAN ati GAN Vocoders
HiFi-GAN jẹ vocoder ti ipilẹṣẹ-adversarial ti o yi mel-spectrogram kan sinu igbi ohun afetigbọ aise kan ti o fẹrẹẹ lesekese, ti n ṣe agbejade ọrọ didara ile-iṣere yiyara ju akoko gidi lọ. O di ipele ipari ipari ti ọrọ-si-ọrọ ode oni nitori pe o yara, iwuwo fẹẹrẹ, ati lile lati ṣe iyatọ si awọn gbigbasilẹ gidi. HiFi-GAN ati GAN Vocoders joko ni awọn iṣan-iṣẹ ohun-AI ti o yi ọrọ, orin, ati ohun pada fun ibaraẹnisọrọ, iraye si, ati iṣelọpọ media. Lati kọ oye ti o jinlẹ, tọju HiFi-GAN ati GAN Vocoders bi awoṣe iṣẹ, kii ṣe ẹya ẹyọkan: ṣalaye awọn abajade ti o fẹ, ṣalaye awọn arosọ, ati yapa ohun ti eto le ṣe ni igbẹkẹle lati ohun ti o tun nilo idajọ amoye.
Ni iṣe, awọn ẹgbẹ ti o lagbara ni lilo HiFi-GAN ati GAN Vocoders ṣe itọju didara, airi, ati ifọkansi bi awọn ẹya pataki kanna ti ilana imuṣiṣẹ. Wọn ṣe akọsilẹ awọn ibeere aṣeyọri ti o fojuhan, idanwo lodi si data ojulowo ati ṣiṣan iṣẹ, ati atunbere ti o da lori awọn ilana ikuna ti a ṣakiyesi dipo awọn bori ala-akoko kan. Eyi ni ibiti oye imọ-jinlẹ yipada si agbara ti o tọ kọja ọja, eto imulo, ati awọn iṣẹ ṣiṣe.
O ṣe ilọsiwaju iraye si nipasẹ transcription, alaye, ati awọn atọkun ohun. Ni akoko kanna, ilokulo ohun ati awọn eewu imisi eniyan n pọ si nigbati igbanilaaye ba sonu. Ọna resilient julọ julọ ni lati darapọ iyara idanwo pẹlu ibawi ijọba: ṣiṣe awọn awakọ awakọ, mu ẹri mu, ṣe atẹjade awọn iwe ipinnu, ati imudojuiwọn awọn aabo nigbagbogbo bi ihuwasi awoṣe, awọn ireti olumulo, ati awọn ibeere ilana ti dagbasoke.
Ipa Ilana
O ṣe ilọsiwaju iraye si nipasẹ transcription, alaye, ati awọn atọkun ohun.
O ṣe ilọsiwaju iraye si nipasẹ transcription, alaye, ati awọn atọkun ohun. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.
Awọn ẹgbẹ Media le firanṣẹ ohun didan yiyara pẹlu awọn isuna-owo kekere.
Awọn ẹgbẹ Media le firanṣẹ ohun didan yiyara pẹlu awọn isuna-owo kekere. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.
Awọn ọna ṣiṣe ti nkọju si alabara le ṣe ilana awọn ibaraẹnisọrọ sisọ ni iwọn nla.
Awọn ọna ṣiṣe ti nkọju si alabara le ṣe ilana awọn ibaraẹnisọrọ sisọ ni iwọn nla. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.
Real-World imuse
Ṣiṣẹda iṣelọpọ sisọ ti awọn oluranlọwọ foju ati awọn ohun elo lilọ kiri ti o nilo awọn idahun laisi idaduro gbigbọran.
Ngba agbara-pipade ohun akoko gidi ati awọn irinṣẹ atunkọ nibiti a ti ṣe jimọ mel-spectrogram cloned sinu ohun afetigbọ ohun adayeba.
Iwakọ iwe ohun afetigbọ ati awọn iru ẹrọ asọye adarọ-ese ti o ṣajọpọ awọn wakati ti ọrọ ni iyara ati ni olowo poku.
Ṣiṣẹ bi ipele igbi ni inu awọn iṣelọpọ ohun orin ati awọn demos orin nipasẹ awọn vocoders gbogbo ara BigVGAN.
Awọn Ilana imuse
HiFi-GAN ati GAN Vocoders ni iṣe
Ṣiṣẹda iṣelọpọ sisọ ti awọn oluranlọwọ foju ati awọn ohun elo lilọ kiri ti o nilo awọn idahun laisi idaduro gbigbọran.
Ṣiṣẹda iṣelọpọ sisọ ti awọn oluranlọwọ foju ati awọn ohun elo lilọ kiri ti o nilo awọn idahun pẹlu ko si idaduro gbigbọ Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna igbega eniyan fun awọn ọran eti, ati tọpa awọn anfani iṣelọpọ mejeeji ati awọn idiyele aṣiṣe ni akoko pupọ.
HiFi-GAN ati GAN Vocoders ni iṣe
Ngba agbara-pipade ohun akoko gidi ati awọn irinṣẹ atunkọ nibiti a ti ṣe jimọ mel-spectrogram cloned sinu ohun afetigbọ ohun adayeba.
Ṣiṣẹda ẹda ohun akoko gidi ati awọn irinṣẹ atunkọ nibiti a ti ṣe mel-spectrogram cloned sinu awọn ẹgbẹ ohun afetigbọ ti ara nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna igbega eniyan fun awọn ọran eti, ati tọpa mejeeji awọn anfani iṣelọpọ ati awọn idiyele aṣiṣe lori akoko.
HiFi-GAN ati GAN Vocoders ni iṣe
Iwakọ iwe ohun afetigbọ ati awọn iru ẹrọ asọye adarọ-ese ti o ṣajọpọ awọn wakati ti ọrọ ni iyara ati ni olowo poku.
Wiwakọ iwe ohun afetigbọ ati awọn iru ẹrọ asọye adarọ-ese ti o ṣepọ awọn wakati ti ọrọ ni iyara ati olowo poku Awọn ẹgbẹ nigbagbogbo gba awọn abajade ti o dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna igbega eniyan fun awọn ọran eti, ati tọpa awọn anfani iṣelọpọ mejeeji ati awọn idiyele aṣiṣe lori akoko.
HiFi-GAN ati GAN Vocoders ni iṣe
Ṣiṣẹ bi ipele igbi ni inu awọn iṣelọpọ ohun orin ati awọn demos orin nipasẹ awọn vocoders gbogbo ara BigVGAN.
Ṣiṣẹ bi ipele igbi ni inu awọn iṣelọpọ ohun orin ati awọn ifihan orin nipasẹ BigVGAN-ara gbogbo awọn vocoders Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna igbega eniyan fun awọn ọran eti, ati tọpa mejeeji awọn anfani iṣelọpọ ati awọn idiyele aṣiṣe ni akoko pupọ.
Awọn ewu & Awọn ọna iṣọ
ilokulo ohun ati awọn ewu afarawe ṣe pọ si nigbati igbanilaaye ba sonu.
Yiye le ju silẹ kọja awọn asẹnti, awọn ede-ede, tabi awọn agbegbe alariwo.
Ohun afetigbọ sintetiki le jẹ aṣiṣe fun ọrọ ododo laisi isamisi to yege.
Ilana Ilana imuse
Gba ifọkansi ti o fojuhan fun gbigba ohun, ti ẹda, ati ilotunlo.
Gba ifọkansi ti o fojuhan fun gbigba ohun, ti ẹda, ati ilotunlo. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.
Didara idanwo kọja awọn agbohunsoke oniruuru ati awọn ipo abẹlẹ.
Didara idanwo kọja awọn agbohunsoke oniruuru ati awọn ipo abẹlẹ. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.
Ṣetumo nigbati eniyan gbọdọ ṣe atunyẹwo tabi fọwọsi awọn abajade.
Ṣetumo nigbati eniyan gbọdọ ṣe atunyẹwo tabi fọwọsi awọn abajade. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.
Aami ohun sintetiki ki o tọju awọn igbasilẹ provenance fun iṣiro.
Aami ohun sintetiki ki o tọju awọn igbasilẹ provenance fun iṣiro. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.