Nchịkọta
NaturalSpeech bụ ahịrị Microsoft TTS nyocha nke na-achọ ịdị mma okwu ọkwa mmadụ, yana nsụgharị ndị ọzọ na-eji mgbasa ozi latent mepụta ụda olu bara ụba. Ọ na-egosi ka ụdị mgbasa ozi, nke a ma ama maka onyonyo, nwere ike wepụta ọdịyo na-egosipụta, na-achịkwa.
NaturalSpeech na Latent Diffusion TTS na-anọdụ na ụda-AI workflows na-agbanwe okwu, egwu, na ụda maka nkwurịta okwu, nnweta, na mmepụta mgbasa ozi.
Ime miri emi
Ihe izizi NaturalSpeech (2022) bụ usoro izizi a kọrọ na ọ ruru ogo ogo mmadụ na benchmark LJSpeech, nke ndị na-ege ntị na-enweghị ike ịkọwa ya nke ọma site na ndekọ ndekọ. Ọ na-eji variational autoencoder nwere nlezianya dabara tupu ya mechie oghere dị n'etiti ọzụzụ na ntinye. NaturalSpeech 2 wee nakwere usoro mgbasa ozi latent: codec audio neural na-etinye okwu n'ime vectors na-aga n'ihu, na ụdị mgbasa ozi na-amụta ịmepụta latent ndị ahụ site na ederede, na-eme ka ụda olu na-agbapụ agbaze site na obere oge. NaturalSpeech 3 webatara mgbasa ozi nke ọma, na-ekewapụta okwu n'ime àgwà ndị ekewapụrụ dị ka ọdịnaya, prosody, timbre, na nkọwa ụda, yabụ enwere ike ịhazi nke ọ bụla ma chịkwaa onwe ya maka ikwesị ntụkwasị obi dị elu na mgbanwe.
Nghọta nka nka
Mgbasa mgbagha na-arụ ọrụ site n'ịgbakwụnye mkpọtụ na nnochite anya obere okwu nke okwu na ọzụzụ netwọk iji tụgharịa mkpọtụ mkpọtụ ahụ site na nzọụkwụ. Kama ịkatọ ụdị ebili mmiri raw ma ọ bụ spectrograms zuru oke, NaturalSpeech 2 na-ekwupụta latent codec, nke dị obere ma dị mfe ịmebe. Ịkwado na ederede na olu ntụaka na-eduga ngbanwe ntụgharị ahụ, ya mere akara ngosi ikpeazụ egosipụtara n'ime okwu dabara na ọdịnaya achọrọ yana njirimara ọkà okwu.
Ịmalite okwu NaturalSpeech na mgbasa ozi nzuzo TTS
NaturalSpeech bụ ahịrị Microsoft TTS nyocha nke na-achọ ịdị mma okwu ọkwa mmadụ, yana nsụgharị ndị ọzọ na-eji mgbasa ozi latent mepụta ụda olu bara ụba. Ọ na-egosi ka ụdị mgbasa ozi, nke a ma ama maka onyonyo, nwere ike wepụta ọdịyo na-egosipụta, na-achịkwa. NaturalSpeech na Latent Diffusion TTS na-anọdụ na ụda-AI workflows na-agbanwe okwu, egwu, na ụda maka nkwurịta okwu, nnweta, na mmepụta mgbasa ozi. Iji wuo nghọta miri emi, na-emeso NaturalSpeech na Latent Diffusion TTS dị ka ihe nlereanya na-arụ ọrụ, ọ bụghị otu njirimara: kọwaa nsonaazụ achọrọ, dokwuo anya echiche, ma kewaa ihe usoro ahụ nwere ike ime nke ọma na ihe ka na-achọ mkpebi ndị ọkachamara.
Na omume, ndị otu siri ike na-eji NaturalSpeech na Latent Diffusion TTS na-ewere ịdịmma, latency, na nkwenye dị ka akụkụ dị mkpa nke atụmatụ mbugharị. Ha na-edepụta njirisi ịga nke ọma nke ọma, nwalee megide data ziri ezi yana usoro ọrụ, yana na-atụgharị dabere na usoro ọdịda ahụrụ karịa karịa mmeri otu oge. Nke a bụ ebe nghọta usoro ihe atụ na-atụgharị ghọọ ike na-adịgide adịgide n'ofe ngwaahịa, amụma na arụmọrụ.
Ọ na-eme ka nnweta ya dịkwuo mma site na ndegharị, ịkọ akụkọ, na ntụgharị olu. N'otu oge ahụ, iji olu eme ihe n'ụzọ na-ezighị ezi na ihe egwu mpụta ga-abawanye mgbe nkwenye na-efu. Ụzọ kachasị na-agbanwe agbanwe bụ ijikọ ọsọ nnwale na ịdọ aka ná ntị ọchịchị: ndị na-anya ụgbọ elu, ijide ihe akaebe, bipụta ndekọ mkpebi, na na-aga n'ihu na-emelite nchekwa dị ka omume nlereanya, atụmanya ndị ọrụ, na ihe iwu chọrọ.
Mmetụta atụmatụ
Ọ na-eme ka nnweta ya dịkwuo mma site na ndegharị, ịkọ akụkọ, na ntụgharị olu.
Ọ na-eme ka nnweta ya dịkwuo mma site na ndegharị, ịkọ akụkọ, na ntụgharị olu. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.
Ndị otu mgbasa ozi nwere ike ibubata ọdịyo a na-egbu maramara ngwa ngwa site na iji obere mmefu ego.
Ndị otu mgbasa ozi nwere ike ibubata ọdịyo a na-egbu maramara ngwa ngwa site na iji obere mmefu ego. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.
Sistemụ na-eche ihu ndị ahịa nwere ike hazie mkparịta ụka n'ọtụtụ buru ibu.
Sistemụ na-eche ihu ndị ahịa nwere ike hazie mkparịta ụka n'ọtụtụ buru ibu. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.
Mmejuputa n'ezie n'ụwa
Ụlọ ihe nkiri na-emepụta ihe na-emechi olu onye na-eme ihe nkiri site na obere nlele iji wepụta ihe nkiri, na-eji NaturalSpeech 2-style zero-shot cloning.
Ngwa ikpo okwu nke akwụkwọ ọdịyo na-ewepụta akụkọ ọkwa mmadụ nke ndị na-ege ntị na-agbasi mbọ ike ịmata ọdịiche na nkà olu n'ezie.
Ngwá ọrụ nnweta na-emepụtaghachi olu nke mmadụ site na ndekọ ochie maka ndị kwụsịrị ikwu okwu.
Suites imepụta ọdịnaya na-eme ka ndị editọ nwee onwe ha ịhazigharị timbre na prosody, na-eji njiri mara NaturalSpeech 3.
Usoro mmejuputa
NaturalSpeech na Latent Diffusion TTS na omume
Ụlọ ihe nkiri na-emepụta ihe na-emechi olu onye na-eme ihe nkiri site na obere nlele iji wepụta ihe nkiri, na-eji NaturalSpeech 2-style zero-shot cloning.
Ụlọ ihe nkiri dubbing na-emechi olu onye na-eme ihe nkiri site na obere nlele iji wepụta ihe nkiri, na-eji NaturalSpeech 2-style zero-shot cloning Teams na-enwetakarị nsonaazụ ka mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, na-eme ka ụzọ mmadụ si abawanye maka ọnụ okwu, ma soro ma uru mmepụta na ụgwọ njehie na oge.
NaturalSpeech na Latent Diffusion TTS na omume
Ngwa ikpo okwu nke akwụkwọ ọdịyo na-ewepụta akụkọ ọkwa mmadụ nke ndị na-ege ntị na-agbasi mbọ ike ịmata ọdịiche na nkà olu n'ezie.
Usoro ikpo okwu nke akwụkwọ ọdịyo na-emepụta akụkọ ọkwa mmadụ nke ndị na-ege ntị na-agbasi mbọ ike ịmata ọdịiche dị na ezigbo olu olu Otu egwuregwu na-enwetakarị nsonaazụ kacha mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, na-eme ka ụzọ mmadụ si abawanye maka oke ikpe, ma soro ma uru nrụpụta yana ụgwọ njehie ka oge na-aga.
NaturalSpeech na Latent Diffusion TTS na omume
Ngwá ọrụ nnweta na-emepụtaghachi olu nke mmadụ site na ndekọ ochie maka ndị kwụsịrị ikwu okwu.
Ngwá ọrụ nnweta na-emegharị olu nke mmadụ site na ndekọ ochie maka ndị tụfuru okwu ha Otu egwuregwu na-enwetakarị nsonaazụ ka mma mgbe ha kọwapụtara ọnụ ụzọ dị mma n'ihu, na-edobe ụzọ ịrị elu mmadụ maka oke ikpe, ma soro ma uru nrụpụta na ụgwọ njehie ka oge na-aga.
NaturalSpeech na Latent Diffusion TTS na omume
Suites imepụta ọdịnaya na-eme ka ndị editọ nwee onwe ha ịhazigharị timbre na prosody, na-eji njiri mara NaturalSpeech 3.
Ọdịnaya okike suites na-ahapụ ndị editọ n'adabereghị na-ahazi timbre na prosody, leveraging NaturalSpeech 3's factorized tributes Otu na-enwetakarị nsonaazụ kacha mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, na-edobe ụzọ mmụba mmadụ maka ikpe ọnụ, ma soro ma uru nrụpụta na ụgwọ njehie n'ime oge.
Ihe ize ndụ & okporo ụzọ nche
Iji olu eme ihe na ihe egwu mpụta ga-abawanye mgbe nkwenye na-efu.
Izi ezi nwere ike ịdaba n'ofe ụda olu, olumba ma ọ bụ gburugburu mkpọtụ.
Enwere ike imehie ọdịyo sịntetik dị ka ezigbo okwu na-enweghị akara doro anya.
Map mmejuputa
Nweta nkwenye doro anya maka ijide olu, imechi, na ijigharị.
Nweta nkwenye doro anya maka ijide olu, imechi, na ijigharị. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.
Nwale ogo n'ofe ndị na-ekwu okwu dị iche iche yana ọnọdụ ndabere.
Nwale ogo n'ofe ndị na-ekwu okwu dị iche iche yana ọnọdụ ndabere. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.
Kọwaa mgbe mmadụ ga-enyocha ma ọ bụ kwado nsonye.
Kọwaa mgbe mmadụ ga-enyocha ma ọ bụ kwado nsonye. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.
Deba aha ọdịyo sịntetik ma debe ndekọ ihe ndekọ maka ịza ajụjụ.
Deba aha ọdịyo sịntetik ma debe ndekọ ihe ndekọ maka ịza ajụjụ. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.