Akopọ
SoundStorm jẹ awoṣe iran ohun Google ti o ṣe agbejade ọrọ ati ohun ni afiwe kuku ju ami-ami kan lọ ni akoko kan, ṣiṣe iṣelọpọ ohun didara ga ni iyara pupọ. O ṣe pataki nitori pe o ge lairi iran fun awọn agekuru gigun lati iṣẹju si iṣẹju-aaya laisi irubọ ifaramọ.
SoundStorm Parallel Audio Generation joko ni awọn iṣan-iṣẹ ohun-AI ti o yi ọrọ pada, orin, ati ohun fun ibaraẹnisọrọ, iraye si, ati iṣelọpọ media.
Jin Dive
SoundStorm, ti a ṣe nipasẹ Google ni ọdun 2023, n ṣe agbejade ohun ti o ṣojuuṣe bi awọn ami akositiki oloye lati kodẹki nkankikan ti a pe ni SoundStream. Awọn awoṣe iṣaaju bii AudioLM ṣe agbejade awọn ami-ami wọnyi ni aifọwọyi, asọtẹlẹ ami-ami kọọkan ni ọkọọkan, eyiti o lọra fun ohun afetigbọ gigun. SoundStorm dipo lilo aisi-autoregressive, ọna orisun-boju-boju ti a yawo lati awọn awoṣe iran aworan bi MaskGIT. O bẹrẹ pẹlu awọn ami ti o boju-boju pupọ ati ni igbagbogbo kun wọn ni iwọn diẹ ti awọn igbesẹ iyipada, sọtẹlẹ ọpọlọpọ awọn ami ni ẹẹkan ni afiwe. Ti wa ni ipo lori awọn ami atunmọ (lati awoṣe bii AudioLM tabi SPEAR-TTS), o le ṣepọ awọn aaya 30 ti ibaraẹnisọrọ adayeba ni bii idaji iṣẹju kan lori TPU kan, ni aijọju awọn akoko 100 yiyara ju awọn ipilẹ-afọwọṣe adaṣe lakoko ti o baamu didara wọn ati aitasera agbọrọsọ.
Imọ-imọ-ẹrọ
SoundStorm ṣe apẹẹrẹ ipo-iṣaaju ti awọn ipele pikito ti o ku (RVQ) lati SoundStream. Lakoko ikẹkọ, awọn ami aipe ti wa ni boju-boju ati awoṣe kọ ẹkọ lati ṣe asọtẹlẹ wọn. Ni itọka o n ṣiṣẹ idawọle ti o jọra ti o ni igbẹkẹle: ni aṣetunṣe kọọkan o sọ asọtẹlẹ gbogbo awọn ami ti o boju, tọju awọn ti o ni igboya julọ, ati tun-boju-boju iyokù. O ṣe ipinnu awọn ipele RVQ isokuso ni akọkọ, lẹhinna awọn ti o dara julọ, de ohun ohun ni kikun ni awọn igbesẹ ti o kere ju ti iran ami-ami-ami lọ.
Titunto si SoundStorm Parallel Audio generation
SoundStorm jẹ awoṣe iran ohun Google ti o ṣe agbejade ọrọ ati ohun ni afiwe kuku ju ami-ami kan lọ ni akoko kan, ṣiṣe iṣelọpọ ohun didara ga ni iyara pupọ. O ṣe pataki nitori pe o ge lairi iran fun awọn agekuru gigun lati iṣẹju si iṣẹju-aaya laisi irubọ ifaramọ. SoundStorm Parallel Audio Generation joko ni awọn iṣan-iṣẹ ohun-AI ti o yi ọrọ pada, orin, ati ohun fun ibaraẹnisọrọ, iraye si, ati iṣelọpọ media. Lati kọ oye ti o jinlẹ, tọju SoundStorm Parallel Audio Generation bi awoṣe iṣẹ, kii ṣe ẹya ẹyọkan: ṣalaye awọn abajade ti o fẹ, ṣe alaye awọn arosọ, ati lọtọ ohun ti eto le ṣe ni igbẹkẹle lati ohun ti o tun nilo idajọ amoye.
Ni iṣe, awọn ẹgbẹ ti o lagbara ni lilo SoundStorm Parallel Audio Generation ṣe itọju didara, airi, ati ifọkansi gẹgẹbi awọn ẹya pataki kanna ti ilana imuṣiṣẹ. Wọn ṣe akọsilẹ awọn ibeere aṣeyọri ti o fojuhan, idanwo lodi si data ojulowo ati ṣiṣan iṣẹ, ati atunbere ti o da lori awọn ilana ikuna ti a ṣakiyesi dipo awọn bori ala-akoko kan. Eyi ni ibiti oye imọ-jinlẹ yipada si agbara ti o tọ kọja ọja, eto imulo, ati awọn iṣẹ ṣiṣe.
O ṣe ilọsiwaju iraye si nipasẹ transcription, alaye, ati awọn atọkun ohun. Ni akoko kanna, ilokulo ohun ati awọn eewu imisi eniyan n pọ si nigbati igbanilaaye ba sonu. Ọna resilient julọ julọ ni lati darapọ iyara idanwo pẹlu ibawi ijọba: ṣiṣe awọn awakọ awakọ, mu ẹri mu, ṣe atẹjade awọn iwe ipinnu, ati imudojuiwọn awọn aabo nigbagbogbo bi ihuwasi awoṣe, awọn ireti olumulo, ati awọn ibeere ilana ti dagbasoke.
Ipa Ilana
O ṣe ilọsiwaju iraye si nipasẹ transcription, alaye, ati awọn atọkun ohun.
O ṣe ilọsiwaju iraye si nipasẹ transcription, alaye, ati awọn atọkun ohun. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.
Awọn ẹgbẹ Media le firanṣẹ ohun didan yiyara pẹlu awọn isuna-owo kekere.
Awọn ẹgbẹ Media le firanṣẹ ohun didan yiyara pẹlu awọn isuna-owo kekere. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.
Awọn ọna ṣiṣe ti nkọju si alabara le ṣe ilana awọn ibaraẹnisọrọ sisọ ni iwọn nla.
Awọn ọna ṣiṣe ti nkọju si alabara le ṣe ilana awọn ibaraẹnisọrọ sisọ ni iwọn nla. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.
Real-World imuse
Ṣiṣẹda awọn ijiroro sisọ iṣẹju-aaya 30 fun awọn oluranlọwọ ohun AI ni labẹ iṣẹju kan
Ṣiṣẹpọ awọn ibaraẹnisọrọ olona-yii pẹlu awọn ohun agbọrọsọ deede fun ṣiṣe apẹrẹ
Agbara ọrọ-si-ọrọ kekere-lairi ni awọn aṣoju ibaraenisepo nibiti awọn awoṣe autoregressive aisun
Ṣiṣejade ohun afetigbọ gigun-gun ni iyara nipasẹ kikun awọn ami akositiki ni afiwe
Awọn Ilana imuse
SoundStorm Parallel Audio Iran ni iṣe
Ṣiṣẹda awọn ijiroro sisọ iṣẹju-aaya 30 fun awọn oluranlọwọ ohun AI ni labẹ iṣẹju kan.
Ṣiṣẹda awọn ijiroro sisọ 30-keji fun awọn oluranlọwọ ohun AI ni labẹ Awọn ẹgbẹ keji nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna igbega eniyan fun awọn ọran eti, ati tọpa awọn anfani iṣelọpọ mejeeji ati awọn idiyele aṣiṣe lori akoko.
SoundStorm Parallel Audio Iran ni iṣe
Ṣiṣẹpọ awọn ibaraẹnisọrọ olona-yii pẹlu awọn ohun agbọrọsọ deede fun ṣiṣe apẹrẹ.
Ṣiṣepọ awọn ibaraẹnisọrọ olona-yii pẹlu awọn ohun agbohunsoke deede fun awọn ẹgbẹ adaṣe nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna igbega eniyan fun awọn ọran eti, ati tọpa awọn anfani iṣelọpọ mejeeji ati awọn idiyele aṣiṣe lori akoko.
SoundStorm Parallel Audio Iran ni iṣe
Agbara ọrọ-si-ọrọ kekere-lairi ni awọn aṣoju ibaraenisepo nibiti awọn awoṣe autoregressive aisun.
Agbara ọrọ-si-ọrọ-kekere ni awọn aṣoju ibaraenisepo nibiti awọn awoṣe adaṣe adaṣe nigbagbogbo gba awọn abajade ti o dara julọ nigbati wọn ṣalaye awọn ilodiwọn didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa awọn anfani iṣelọpọ mejeeji ati awọn idiyele aṣiṣe ni akoko pupọ.
SoundStorm Parallel Audio Iran ni iṣe
Ṣiṣejade ohun afetigbọ gigun-gun ni iyara nipasẹ kikun awọn ami akositiki ni afiwe.
Ṣiṣejade ohun afetigbọ gigun-gun ni iyara nipa kikun awọn ami akositiki ni Awọn ẹgbẹ ti o jọra nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa awọn anfani iṣelọpọ mejeeji ati awọn idiyele aṣiṣe lori akoko.
Awọn ewu & Awọn ọna iṣọ
ilokulo ohun ati awọn ewu afarawe ṣe pọ si nigbati igbanilaaye ba sonu.
Yiye le ju silẹ kọja awọn asẹnti, awọn ede-ede, tabi awọn agbegbe alariwo.
Ohun afetigbọ sintetiki le jẹ aṣiṣe fun ọrọ ododo laisi isamisi to yege.
Ilana Ilana imuse
Gba ifọkansi ti o fojuhan fun gbigba ohun, ti ẹda, ati ilotunlo.
Gba ifọkansi ti o fojuhan fun gbigba ohun, ti ẹda, ati ilotunlo. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.
Didara idanwo kọja awọn agbohunsoke oniruuru ati awọn ipo abẹlẹ.
Didara idanwo kọja awọn agbohunsoke oniruuru ati awọn ipo abẹlẹ. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.
Ṣetumo nigbati eniyan gbọdọ ṣe atunyẹwo tabi fọwọsi awọn abajade.
Ṣetumo nigbati eniyan gbọdọ ṣe atunyẹwo tabi fọwọsi awọn abajade. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.
Aami ohun sintetiki ki o tọju awọn igbasilẹ provenance fun iṣiro.
Aami ohun sintetiki ki o tọju awọn igbasilẹ provenance fun iṣiro. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.