Akopọ
AudioLM jẹ ilana iwadii Google ti o ṣe agbejade ohun ojulowo — ọrọ tabi orin piano — nipa ṣiṣe itọju ohun bii ede ati asọtẹlẹ ami-ami nipasẹ ami-ami. O ṣe pataki nitori pe o fihan pe o le gbejade isomọ, awọn itesiwaju ohun afetigbọ ohun adayeba laisi eyikeyi iwe afọwọkọ ọrọ tabi Dimegilio orin.
AudioLM joko ni awọn ṣiṣan iṣẹ ohun-AI ti o yi ọrọ pada, orin, ati ohun fun ibaraẹnisọrọ, iraye si, ati iṣelọpọ media.
Jin Dive
Iṣagbekale nipasẹ Google ni ọdun 2022, AudioLM ṣe atunṣe iran ohun afetigbọ bi iṣoro awoṣe-ede: o ṣe iyipada awọn ọna igbi aise sinu awọn ami iyasọtọ ati lẹhinna sọ asọtẹlẹ ami atẹle, gẹgẹ bi awoṣe ọrọ ṣe asọtẹlẹ ọrọ ti nbọ. Ẹtan bọtini rẹ jẹ ilana-iṣe ti awọn oriṣi ami. Awọn ami ami 'Semantic' (lati awoṣe bii w2v-BERT) gba eto igba pipẹ - phonetics, syntax, orin aladun - lakoko ti awọn ami 'acoustic' (lati SoundStream neural codec) gba awọn alaye to dara bi idanimọ agbọrọsọ, timbre, ati awọn ipo gbigbasilẹ. Nipa sisọ asọtẹlẹ awọn ami isọdi akọkọ, lẹhinna mimu awọn ami ami akositiki sori wọn, AudioLM ṣe agbejade awọn itesiwaju ti o duro ni isọdọkan fun awọn aaya pupọ lakoko titọju ohun atilẹba tabi ohun elo. Fun iṣẹju diẹ ti ọrọ, o tẹsiwaju ni sisọ ni ohun kanna; fun piano, o improvises ni kanna ara.
Imọ-imọ-ẹrọ
AudioLM ti ni ikẹkọ nikan lori ohun - ko si awọn iwe afọwọkọ. SoundStream fun ohun afetigbọ sinu awọn ami akositiki nipasẹ pipọ pikito ti o ku, lakoko ti w2v-BERT n pese awọn ami atunmọ isokuso. Akopọ ti awọn awoṣe ede Ayirapada sọ asọtẹlẹ awọn ami ni awọn ipele: itumọ akọkọ fun igbekalẹ, lẹhinna isokuso ati awọn ami akositiki itanran fun atunkọ-iṣotitọ giga. Oluyipada SoundStream nikẹhin yi awọn ami isọtẹlẹ pada si ọna igbi kan, ohun afetigbọ ti o jẹ ki ohun agbọrọsọ jẹ ki o ṣe deede.
Titunto si AudioLM
AudioLM jẹ ilana iwadii Google ti o ṣe agbejade ohun ojulowo — ọrọ tabi orin piano — nipa ṣiṣe itọju ohun bii ede ati asọtẹlẹ ami-ami nipasẹ ami-ami. O ṣe pataki nitori pe o fihan pe o le gbejade isomọ, awọn itesiwaju ohun afetigbọ ohun adayeba laisi eyikeyi iwe afọwọkọ ọrọ tabi Dimegilio orin. AudioLM joko ni awọn ṣiṣan iṣẹ ohun-AI ti o yi ọrọ pada, orin, ati ohun fun ibaraẹnisọrọ, iraye si, ati iṣelọpọ media. Lati kọ oye ti o jinlẹ, tọju AudioLM bi awoṣe iṣẹ, kii ṣe ẹya ẹyọkan: ṣalaye awọn abajade ti o fẹ, ṣe alaye awọn arosọ, ati ya sọtọ ohun ti eto le ṣe ni igbẹkẹle lati ohun ti o tun nilo idajọ amoye.
Ni iṣe, awọn ẹgbẹ ti o lagbara ti o lo AudioLM ṣe itọju didara, airi, ati igbanilaaye gẹgẹbi awọn ẹya pataki kanna ti ilana imuṣiṣẹ. Wọn ṣe akọsilẹ awọn ibeere aṣeyọri ti o fojuhan, idanwo lodi si data ojulowo ati ṣiṣan iṣẹ, ati atunbere ti o da lori awọn ilana ikuna ti a ṣakiyesi dipo awọn bori ala-akoko kan. Eyi ni ibiti oye imọ-jinlẹ yipada si agbara ti o tọ kọja ọja, eto imulo, ati awọn iṣẹ ṣiṣe.
O ṣe ilọsiwaju iraye si nipasẹ transcription, alaye, ati awọn atọkun ohun. Ni akoko kanna, ilokulo ohun ati awọn eewu imisi eniyan n pọ si nigbati igbanilaaye ba sonu. Ọna resilient julọ julọ ni lati darapọ iyara idanwo pẹlu ibawi ijọba: ṣiṣe awọn awakọ awakọ, mu ẹri mu, ṣe atẹjade awọn iwe ipinnu, ati imudojuiwọn awọn aabo nigbagbogbo bi ihuwasi awoṣe, awọn ireti olumulo, ati awọn ibeere ilana ti dagbasoke.
Ipa Ilana
O ṣe ilọsiwaju iraye si nipasẹ transcription, alaye, ati awọn atọkun ohun.
O ṣe ilọsiwaju iraye si nipasẹ transcription, alaye, ati awọn atọkun ohun. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.
Awọn ẹgbẹ Media le firanṣẹ ohun didan yiyara pẹlu awọn isuna-owo kekere.
Awọn ẹgbẹ Media le firanṣẹ ohun didan yiyara pẹlu awọn isuna-owo kekere. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.
Awọn ọna ṣiṣe ti nkọju si alabara le ṣe ilana awọn ibaraẹnisọrọ sisọ ni iwọn nla.
Awọn ọna ṣiṣe ti nkọju si alabara le ṣe ilana awọn ibaraẹnisọrọ sisọ ni iwọn nla. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.
Real-World imuse
Tesiwaju agekuru ọrọ kukuru ni ohun agbọrọsọ kanna ati intonation laisi iwe afọwọkọ kan
Imudarasi orin duru tuntun ti o baamu ara ti itusilẹ kukuru ti o gbasilẹ
Ṣiṣẹ bi ẹhin-iran ohun ohun fun awọn ọna ṣiṣe orin-si-orin bii MusicLM
Iwadi sinu iṣelọpọ ọrọ ti o ṣe itọju prosody ati awọn acoustics gbigbasilẹ lati inu apẹẹrẹ kan
Awọn Ilana imuse
AudioLM ni iṣe
Tesiwaju agekuru ọrọ kukuru ni ohun agbọrọsọ kanna ati intonation laisi iwe afọwọkọ kan.
Tẹsiwaju agekuru ọrọ kukuru ni ohun agbọrọsọ kanna ati intonation laisi iwe afọwọkọ Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa awọn anfani iṣelọpọ mejeeji ati awọn idiyele aṣiṣe lori akoko.
AudioLM ni iṣe
Imudarasi orin duru tuntun ti o baamu ara ti itusilẹ kukuru ti o gbasilẹ.
Imudarasi orin duru tuntun ti o baamu ara ti iyara igbasilẹ kukuru Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna igbega eniyan fun awọn ọran eti, ati tọpa awọn anfani iṣelọpọ mejeeji ati awọn idiyele aṣiṣe lori akoko.
AudioLM ni iṣe
Ṣiṣẹ bi ẹhin-iran ohun ohun fun awọn ọna ṣiṣe orin-si-orin bii MusicLM.
Ṣiṣẹ bi ẹhin iran ohun-orin fun awọn ọna ṣiṣe orin-si-orin bii Awọn ẹgbẹ MusicLM nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa mejeeji awọn anfani iṣelọpọ ati awọn idiyele aṣiṣe lori akoko.
AudioLM ni iṣe
Iwadi sinu iṣelọpọ ọrọ ti o ṣe itọju prosody ati awọn acoustics gbigbasilẹ lati inu apẹẹrẹ kan.
Iwadi sinu kolaginni ọrọ ti o ṣe itọju prosody ati gbigbasilẹ acoustics lati apẹẹrẹ Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa awọn anfani iṣelọpọ mejeeji ati awọn idiyele aṣiṣe lori akoko.
Awọn ewu & Awọn ọna iṣọ
ilokulo ohun ati awọn ewu afarawe ṣe pọ si nigbati igbanilaaye ba sonu.
Yiye le ju silẹ kọja awọn asẹnti, awọn ede-ede, tabi awọn agbegbe alariwo.
Ohun afetigbọ sintetiki le jẹ aṣiṣe fun ọrọ ododo laisi isamisi to yege.
Ilana Ilana imuse
Gba ifọkansi ti o fojuhan fun gbigba ohun, ti ẹda, ati ilotunlo.
Gba ifọkansi ti o fojuhan fun gbigba ohun, ti ẹda, ati ilotunlo. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.
Didara idanwo kọja awọn agbohunsoke oniruuru ati awọn ipo abẹlẹ.
Didara idanwo kọja awọn agbohunsoke oniruuru ati awọn ipo abẹlẹ. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.
Ṣetumo nigbati eniyan gbọdọ ṣe atunyẹwo tabi fọwọsi awọn abajade.
Ṣetumo nigbati eniyan gbọdọ ṣe atunyẹwo tabi fọwọsi awọn abajade. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.
Aami ohun sintetiki ki o tọju awọn igbasilẹ provenance fun iṣiro.
Aami ohun sintetiki ki o tọju awọn igbasilẹ provenance fun iṣiro. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.