Résumé
VALL-E dafa soppi bind-ci-kaddu nekk jafe-jafe modeling làkk ci token codec audio, loolu mooy tax baat bi mëna klone ci ñetti segond ci misaal bi. Mu wane ni benn token bi ci topp biy wax luy waaja am ci LLMs mën na defar kàddu yu yéeme, yu fësal kàddu.
VALL-E ak Codec Language Models ñu ngi toog ci liggéeyu audio-AI biy soppi kàddu, music, ak son ngir jokkoo, yombal jëfandikoo gi, ak defar media.
Plongeur bu xóot
Microsoft moo ko siiwal ci ndoortelu 2023, VALL-E dafay jàppee waxtaan wi ni modelu làkk. Du wax luy waaja am ci spectrogram, waaye dafay wax luy waaja am ci token akustik yu diskret yi ci codec neural (EnCodec), suko defee generation nekk token bi ci topp di wax luy waaja am ci kaw vocabulaire audio. Suñu joxee enregistrement bu 3 seconde bu benn waxkat buñu gisul ak mbind biñ bëgga bind, VALL-E dafay wéy ci baat biy waxkat bi, di baña yàq timbre bi ba ci environmaa akustik bi. Ñu ngi ko tàggat ci lu tollu ci 60 000 waxtuy wax, muy lu ëpp bu baax li ñuy woowe TTS, loolu moo ko may cloning zero-shot bu dëgër. Ndax token codec yi dañuy layered (jaaraleko ci RVQ), VALL-E dafay jëfandikoo ñaari etap: benn model autoregressive dafay wax lu njëkk, stream token bu dëgër biñ kondisione ci laaj bi, ak benn model bu amul autoregressive buy fees dessitu token yi. Bii rëset codec-LM inspiré na ñu ci topp lu melni VALL-E 2 ak yeneen xeetu fondation kàddu.
Gis-gis xarala
Li am solo mooy dekodage hybrid ci kaw jeton codec hierarchique. Etape autorégressive bi dafay wax luy am solo ci token codebook bu njëkk bi benn-benn, di jàpp prosody ak ëmbiit li. Dessitu téere kode yi, yuy yokk ay detay akustik yu rafet, ñu ngi leen wax luy waaja am ci paralel ci xeetu model bu dul autorégressive buñ tëral ci stream bu njëkk bi ak ci prompt bu waxkat bi. Xaajale bi dafay tëye kalite bi ci di moytu njëgu defar token bu nekk ci anam wu toppalante, te jëfandikoo codec dafay tekki ni wax ak bind mën nañu leen modele ak benn masin transformateur.
Xam VALL-E ak xeetu làkk Codec
VALL-E dafa soppi bind-ci-kaddu nekk jafe-jafe modeling làkk ci token codec audio, loolu mooy tax baat bi mëna klone ci ñetti segond ci misaal bi. Mu wane ni benn token bi ci topp biy wax luy waaja am ci LLMs mën na defar kàddu yu yéeme, yu fësal kàddu. VALL-E ak Codec Language Models ñu ngi toog ci liggéeyu audio-AI biy soppi kàddu, music, ak son ngir jokkoo, yombal jëfandikoo gi, ak defar media. Ngir tabax xam-xam bu xóot, jàppal VALL-E ak Codec Language Models ni xeetu liggéey, du benn man-man: leeral njariñ yi nga bëgg, leeral xalaat yi, ak tàqale li sistem bi mëna def ci anam wu wóor ak li ba leegi soxla àtteb kàngam.
Ci jëf, ekip yu am doole yiy jëfandikoo VALL-E ak Codec Language Models dañuy jàppee kalite, latency, ak nangu ni cër yu am solo ci pexem dugal. Dañuy bind kritër yu leer ngir am ndam, natt leen ci done yu dëggu ak def liggéey, ba noppi ñu baamtu ci anamu ñàkka mëna seetlu, du ci benn yoon benchmark wins. Mooy barab bi xam-xam theorie bi di soppiku nekk kàttan buy yàgg ci produit yi, ci politik yi ak ci liggéey yi.
Dafay gëna yombal jëfandikoo gi jaaraleko ci transkripsioŋ, nettali ak interfaasu baat. Ci jamano jooju, risku jëfandikoo Baat bu baaxul ak niru ak nit dafay gëna yokk sudee nanguwul. Xeetu jëf bi gëna dëgër mooy boole gaawaayu jàngat ak disipline nguur: doxal pilote, jàpp firnde, siiwal dogal yi, ak wéy di yeesal kaaraange gi ci anam wi ñuy doxalee, li jëfandikukat bi di xaar, ak sàrti sàrt yi di jëm kanam.
njeextalu pexe
Dafay gëna yombal jëfandikoo gi jaaraleko ci transkripsioŋ, nettali ak interfaasu baat.
Dafay gëna yombal jëfandikoo gi jaaraleko ci transkripsioŋ, nettali ak interfaasu baat. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.
Ekipu mejaa yi mën nañu yónnee audio bu leer ci anam wu gëna gaaw te seen xaalis gëna néew.
Ekipu mejaa yi mën nañu yónnee audio bu leer ci anam wu gëna gaaw te seen xaalis gëna néew. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.
Sistem yiy jàkkarloo ak kiliyaan bi mën nañu def waxtaan ci anam wu gëna yaatu.
Sistem yiy jàkkarloo ak kiliyaan bi mën nañu def waxtaan ci anam wu gëna yaatu. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.
Doxal ci àdduna dëgg
Klone ab baat ci ay segond yu néew ci audio ngir assistant yuñ personaalise wala jumtukaayi jëfandikoo ngir defaraat baat bu réer
Lokalise ak dubbing wideo ci yeneen làkk te baña bàyyi timbre bi waxkat bi njëkka am
Defar ay nettali yu fëgër, méngoo ak muy tekki, di baña yàq environmaa akustik bi ci enregistremaa bi
Dafay nekk yaxu ndigg ci kàddu yi ci assistant multimodal yiy dégg ak defar audio yuñ wax
Modèlu jëfandikoo
VALL-E ak misaali làkk Codec ci jëf
Klone ab baat ci ay segond audio yu néew ngir ay assistant yuñ personaalise wala jumtukaayi jëfandikoo ngir defaraat ab baat bu réer.
Klone ab baat ci ay segond yu néew ci audio ngir ay assistant yuñ personaalise wala jumtukaayi jëfandikoo ngir defaraat ab baat bu réer. Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee ay threshold yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit ak njëgu njuumte ci diir bu gàtt.
VALL-E ak misaali làkk Codec ci jëf
Lokalise ak dubbing wideo ci yeneen làkk te baña bàyyi timbre bi waxkat bi njëkka wax.
Localiser ak dubbing wideo ci yeneen làkk yi boole ci tëye timbre waxinkat bu njëkk bi Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee threshold yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu liggéey bi ak njëgu njuumte yi ci diir bu gàtt.
VALL-E ak misaali làkk Codec ci jëf
Defar ay nettali yu fëgër, méngoo ak muy tekki environmaa akustik bi ci enregistrement bi.
Defar ay nettali yu fësal, méngoo ak jamono jiy tëye environmaa akustik bi ci enregistremaa bi. Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee ay pursàntaasu kalite ci kanam, tëye yoonu eskalaasioŋ bu nit ñi ngir jafe-jafe yi, ba noppi topp njariñu liggéey bi ak njëgu njuumte yi ci diir bu gàtt.
VALL-E ak misaali làkk Codec ci jëf
Dafay nekk yaxu ndigg ci kàddu yi ci assistant multimodal yiy dégg ak defar audio buñ wax.
Liggéeyukaay ni yaxu ndigg ci kàddu yi ci assistant multimodal yiy xam ak defar audio wax Teams yi dañuy faral di am njariñ yu gëna baax suñu joxee threshold yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit ak njëgu njuumte ci diir bu gàtt.
Risk yi ak balustrade yi
Jëfandikoo baat ci anam wu jaarul yoon ak niru ak nit dafay gëna yokk sudee nanguwul.
Jaar-jaar mën na wàññeeku ci aksan yi, dialect yi wala barab yu bari xumbaay.
Audio synthetik mën nañu ko jaawale ak wax ju dëggu sudee amul etiket bu leer.
Roadmap ngir samp gi
Wutal ndigal bu leer ngir jàpp baat bi, klone ko ak jëfandikoowaat ko.
Wutal ndigal bu leer ngir jàpp baat bi, klone ko ak jëfandikoowaat ko. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.
Saytu kalite ci kàddukat yu bari ak anam yu bari ci ginaaw.
Saytu kalite ci kàddukat yu bari ak anam yu bari ci ginaaw. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.
Mandargal kañ la nit wara xoolaat wala nangu ay génne.
Mandargal kañ la nit wara xoolaat wala nangu ay génne. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.
Etiketu audio synthetik te nga denc dokimaa ci fimu bawoo ngir mëna lim.
Etiketu audio synthetik te nga denc dokimaa ci fimu bawoo ngir mëna lim. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.