Audio AI GUIDE

SoundStream Neural Codec

SoundStream bụ Google's end-to-end neural audio codec nke na-akpakọ okwu na egwu na bitrate dị oke ala ma na-echekwa ịdịmma.

Nchịkọta

SoundStream bụ Google's end-to-end neural audio codec nke na-akpakọ okwu na egwu na bitrate dị oke ala ma na-echekwa ịdịmma. Ọ dị mkpa n'ihi na ọ na-akụ codecs ọdịnala dịka Opus n'otu bitrate ma na-akwado ụdị ọdịyo ọgbara ọhụrụ.

SoundStream Neural Codec na-anọdụ n'usoro ọdịyo-AI nke na-agbanwe okwu, egwu, na ụda maka nzikọrịta ozi, nnweta na mmepụta mgbasa ozi.

Ime miri emi

Nke __AIU_PROTECTED_11_ webatara na 2021, SoundStream bụ codec neural zuru oke nke e wuru site na iberibe atọ a zụrụ ọnụ: ihe ngbanwe mgbanwe nke na-atụgharị raw waveform ka ọ bụrụ usoro kọmpat nke vectors, residual vector quantizer (RVQ) nke na-agbagha vectors ndị ahụ, yana ihe na-agbanwe agbanwe. A zụrụ ya site na mfu nrụzigharị yana onye ịkpa oke n'ụdị GAN, yabụ mmepụta na-ada ụda eke kama ịbụ nso nsoro ọnụ. Ngosipụta pụtara bụ 'scalable' ma ọ bụ ọzụzụ quantizer-dropout: otu ụdị nwere ike ịrụ ọrụ n'ofe bitrates site na ihe dị ka 3 ruo 18 kbps naanị site na iji ọkwa quantizer karịa ma ọ bụ dị nta na ntinye, na-enweghị nlọghachi azụ. Na 3 kbps, a na-akọ na ọ karịrị Opus na 12 kbps n'ime ule ige ntị, ijikwa okwu, egwu, na ọdịyo izugbe n'otu ụdị nke nwere ike ịgba ọsọ ozugbo na CPU smartphone.

Nghọta nka nka

Ụdị ebili mmiri ahụ na-agafe mgbanwe ndị gbawara agbawa na-agbadata nke ukwuu, na-ewepụta otu ntinye n'otu etiti (dịka freelụ 75/sekọnd). RVQ wee tinye koodu ntinye ọ bụla dị ka njupụta nke indices codebook. Bitrate ha nhata nha nha n'etiti ọnụọgụ nke oge quantizer na-arụ ọrụ n'otu akwụkwọ koodu. Quantizer dropout na-agbaji ngwa ngwa RVQ n'oge ọzụzụ, na-amanye akwụkwọ ndị mbụ ka ha buru ozi kachasị mkpa ka codec wee weda nke ọma na ọnụ ọgụgụ dị ala.

Ijikwa SoundStream Neural Codec

SoundStream bụ Google's end-to-end neural audio codec nke na-akpakọ okwu na egwu na bitrate dị oke ala ma na-echekwa ịdịmma. Ọ dị mkpa n'ihi na ọ na-akụ codecs ọdịnala dịka Opus n'otu bitrate ma na-akwado ụdị ọdịyo ọgbara ọhụrụ. SoundStream Neural Codec na-anọdụ n'usoro ọdịyo-AI nke na-agbanwe okwu, egwu, na ụda maka nzikọrịta ozi, nnweta na mmepụta mgbasa ozi. Iji wuo nghọta miri emi, na-emeso SoundStream Neural Codec dị ka ihe nlereanya na-arụ ọrụ, ọ bụghị otu njirimara: kọwaa nsonaazụ achọrọ, dokwuo anya echiche, ma kewaa ihe usoro ahụ nwere ike ime nke ọma na ihe ka na-achọ mkpebi ndị ọkachamara.

Na omume, otu ndị siri ike na-eji SoundStream Neural Codec na-emeso ịdịmma, nkwụsịtụ, na nkwenye dị ka akụkụ dị mkpa nke atụmatụ mbugharị. Ha na-edepụta njirisi ịga nke ọma nke ọma, nwalee megide data ziri ezi yana usoro ọrụ, yana na-atụgharị dabere na usoro ọdịda ahụrụ karịa karịa mmeri otu oge. Nke a bụ ebe nghọta usoro ihe atụ na-atụgharị ghọọ ike na-adịgide adịgide n'ofe ngwaahịa, amụma na arụmọrụ.

Ọ na-eme ka nnweta ya dịkwuo mma site na ndegharị, ịkọ akụkọ, na ntụgharị olu. N'otu oge ahụ, iji olu eme ihe n'ụzọ na-ezighị ezi na ihe egwu mpụta ga-abawanye mgbe nkwenye na-efu. Ụzọ kachasị na-agbanwe agbanwe bụ ijikọ ọsọ nnwale na ịdọ aka ná ntị ọchịchị: ndị na-anya ụgbọ elu, ijide ihe akaebe, bipụta ndekọ mkpebi, na na-aga n'ihu na-emelite nchekwa dị ka omume nlereanya, atụmanya ndị ọrụ, na ihe iwu chọrọ.

Mmetụta atụmatụ

Ọ na-eme ka nnweta ya dịkwuo mma site na ndegharị, ịkọ akụkọ, na ntụgharị olu.

Ọ na-eme ka nnweta ya dịkwuo mma site na ndegharị, ịkọ akụkọ, na ntụgharị olu. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Ndị otu mgbasa ozi nwere ike ibubata ọdịyo a na-egbu maramara ngwa ngwa site na iji obere mmefu ego.

Ndị otu mgbasa ozi nwere ike ibubata ọdịyo a na-egbu maramara ngwa ngwa site na iji obere mmefu ego. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Sistemụ na-eche ihu ndị ahịa nwere ike hazie mkparịta ụka n'ọtụtụ buru ibu.

Sistemụ na-eche ihu ndị ahịa nwere ike hazie mkparịta ụka n'ọtụtụ buru ibu. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Ọdịnihu nke Codec Neural SoundStream

SoundStream guzobe ndebiri nke mechara codecs dị ka EnCodec na DAC nụchara anụcha, na akara ngosi ya nwere ezi uche ghọrọ mkpụrụ maka sistemụ nrụpụta dị ka AudioLM na MusicLM. Na-atụ anya ka ụmụ na-aga n'ihu na ọbụna obere bitrates, akara usoro ahaziri ahazi nke okpukpu abụọ dị ka ntinye na ndị na-emepụta ọdịyo ụdị asụsụ, yana ntinye ngwa ngwa maka oku ndụ, ihe enyemaka ịnụ ihe, na nkwanye ugwu ebe bandwit na latency na-akpachi anya.

Mmejuputa n'ezie n'ụwa

Na-akpakọ oku olu na ~ 3 kbps ka ọ na-ada nke ọma karịa codecs nketa na bitrates dị elu

Na-emepụta ihe ngosi ọdịyo pụrụ iche na-enye Google's AudioLM na ụdị mmepụta MusicLM

Mgbasa ụda ọdịyo dị obere obere oge na ngwaọrụ mkpanaka nwere ntinye na ngbanwe on-CPU

Na-echekwa ma ọ bụ na-ebusa egwu na ụda ihe nke ọma n'otu ụdị nke na-ejikwa ụdị ọdịnaya niile

Usoro mmejuputa

SoundStream Neural Codec na omume

Na-akpakọ oku olu na ~ 3 kbps ka ọ na-ada nke ọma karịa codecs nketa na bitrates dị elu.

Ịkọkọ oku na-aga na ~ 3 kbps ka ọ na-ada ụda karịa codecs nketa na bitrates dị elu Otu egwuregwu na-enwetakarị nsonaazụ ka mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, na-eme ka ụzọ mmadụ si abawanye maka ọnụ okwu, ma soro ma uru nrụpụta na ụgwọ njehie na oge.

SoundStream Neural Codec na omume

Na-emepụta ihe ngosi ọdịyo pụrụ iche nke na-enye Google's AudioLM na ụdị mmepụta MusicLM.

Ịmepụta token ọdịyo dị iche nke na-enye Google's AudioLM na ụdị ụdị mmepụta MusicLM Otu dị iche iche na-enwetakarị nsonaazụ kacha mma mgbe ha kọwapụtara ọnụ ụzọ dị mma n'ihu, na-edobe ụzọ ịrị elu mmadụ maka ikpe ọnụ, ma soro ma uru nrụpụta yana ụgwọ njehie ka oge na-aga.

SoundStream Neural Codec na omume

Mgbasa ụda ọdịyo dị obere obere oge na ngwaọrụ mkpanaka nwere ntinye na ngbanwe na CPU.

Mgbasa ụda ọdịyo dị obere oge na ngwaọrụ mkpanaka nwere on-CPU encoding na decoding Teams na-enwetakarị nsonaazụ kacha mma mgbe ha kọwapụtara ọnụ ụzọ dị mma n'ihu, debe ụzọ nkwalite mmadụ maka ikpe ọnụ, ma soro ma uru nrụpụta yana ụgwọ njehie n'ime oge.

SoundStream Neural Codec na omume

Na-echekwa ma ọ bụ na-ebusa egwu na ụda ihe nke ọma n'otu ụdị nke na-ejikwa ụdị ọdịnaya niile.

Ịchekwa ma ọ bụ na-ebufe egwu na ụda ambient nke ọma n'otu ụdị nke na-ejikwa ụdị ọdịnaya niile Otu ìgwè na-enwetakarị nsonaazụ ka mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, na-edebe ụzọ ịrị elu mmadụ maka ikpe ikpe, ma soro ma uru nrụpụta na ụgwọ njehie na oge.

Ihe ize ndụ & okporo ụzọ nche

!

Iji olu eme ihe na ihe egwu mpụta ga-abawanye mgbe nkwenye na-efu.

!

Izi ezi nwere ike ịdaba n'ofe ụda olu, olumba ma ọ bụ gburugburu mkpọtụ.

!

Enwere ike imehie ọdịyo sịntetik dị ka ezigbo okwu na-enweghị akara doro anya.

Map mmejuputa

1

Nweta nkwenye doro anya maka ijide olu, imechi, na ijigharị.

Nweta nkwenye doro anya maka ijide olu, imechi, na ijigharị. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

2

Nwale ogo n'ofe ndị na-ekwu okwu dị iche iche yana ọnọdụ ndabere.

Nwale ogo n'ofe ndị na-ekwu okwu dị iche iche yana ọnọdụ ndabere. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

3

Kọwaa mgbe mmadụ ga-enyocha ma ọ bụ kwado nsonye.

Kọwaa mgbe mmadụ ga-enyocha ma ọ bụ kwado nsonye. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

4

Deba aha ọdịyo sịntetik ma debe ndekọ ihe ndekọ maka ịza ajụjụ.

Deba aha ọdịyo sịntetik ma debe ndekọ ihe ndekọ maka ịza ajụjụ. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

Nọgide na-eme nchọpụta