Audio AI Itọsọna

SoundStream nkankikan kodẹki

SoundStream jẹ Google's opin-si-opin ohun kodẹki nkankikan ti o rọ ọrọ ati orin pọ si awọn iwọn biiti kekere pupọju lakoko ti o tọju didara.

Akopọ

SoundStream jẹ Google's opin-si-opin ohun kodẹki nkankikan ti o rọ ọrọ ati orin pọ si awọn iwọn biiti kekere pupọju lakoko ti o tọju didara. O ṣe pataki nitori pe o lu awọn kodẹki ibile bii Opus ni iwọn biiti kanna ati agbara awọn awoṣe ohun afetigbọ ode oni.

Kodẹki Neural SoundStream joko ni awọn ṣiṣan iṣẹ ohun-AI ti o yi ọrọ pada, orin, ati ohun fun ibaraẹnisọrọ, iraye si, ati iṣelọpọ media.

Jin Dive

Iṣafihan nipasẹ Google ni ọdun 2021, SoundStream jẹ koodu kodẹki nkankikan ti o ni kikun ti a ṣe lati awọn ege mẹta ti a ṣe ikẹkọ papọ: koodu iyipada kan ti o yi iyipada igbi aise pada si ọna iwapọ kan ti awọn vectors, quantizer vector ti o ku (RVQ) ti o sọ awọn apanirun wọnyẹn leti, ati imupadabọ ti o ṣe iyipada. O ti ni ikẹkọ pẹlu awọn adanu atunkọ mejeeji ati iyasọtọ ọta ara GAN kan, nitorinaa iṣelọpọ n dun adayeba kuku ju isunmọ nọmba kan. Ẹya iduro kan jẹ 'iwọn' tabi ikẹkọ quantizer-dropout: awoṣe kan le ṣiṣẹ kọja awọn iwọn biiti lati aijọju 3 si 18 kbps nirọrun nipa lilo diẹ sii tabi diẹ awọn fẹlẹfẹlẹ quantizer ni itọkasi, laisi imupadabọ. Ni 3 kbps o royin ju Opus lọ ni 12 kbps ni awọn idanwo gbigbọran, mimu ọrọ mu, orin, ati ohun afetigbọ gbogbogbo ni awoṣe kan ti o le ṣiṣẹ ni akoko gidi lori Sipiyu foonuiyara kan.

Imọ-imọ-ẹrọ

Fọọmu igbi naa kọja nipasẹ awọn iyipo ti o gun ti o dinku pupọ, ti n ṣe ifilọlẹ ọkan fun fireemu (fun apẹẹrẹ 75 awọn fireemu/aaya). RVQ lẹhinna ṣe koodu ifibọ kọọkan bi akopọ ti awọn atọka koodu. Bitrate dogba awọn akoko oṣuwọn fireemu nọmba awọn akoko quantizers ti nṣiṣe lọwọ awọn die-die fun iwe koodu. Quantizer dropout laileto ge akopọ RVQ lakoko ikẹkọ, fi ipa mu awọn iwe koodu iṣaaju lati gbe alaye pataki julọ ki kodẹki dinku ni oore-ọfẹ ni awọn iwọn kekere.

Mastering SoundStream nkankikan kodẹki

SoundStream jẹ Google's opin-si-opin ohun kodẹki nkankikan ti o rọ ọrọ ati orin pọ si awọn iwọn biiti kekere pupọju lakoko ti o tọju didara. O ṣe pataki nitori pe o lu awọn kodẹki ibile bii Opus ni iwọn biiti kanna ati agbara awọn awoṣe ohun afetigbọ ode oni. Kodẹki Neural SoundStream joko ni awọn ṣiṣan iṣẹ ohun-AI ti o yi ọrọ pada, orin, ati ohun fun ibaraẹnisọrọ, iraye si, ati iṣelọpọ media. Lati kọ oye ti o jinlẹ, tọju SoundStream Neural Codec bi awoṣe iṣẹ, kii ṣe ẹya ẹyọkan: ṣalaye awọn abajade ti o fẹ, ṣalaye awọn arosọ, ati ya sọtọ ohun ti eto le ṣe ni igbẹkẹle lati ohun ti o tun nilo idajọ amoye.

Ni iṣe, awọn ẹgbẹ ti o lagbara ti nlo SoundStream Neural Codec ṣe itọju didara, airi, ati ifọkansi gẹgẹbi awọn ẹya pataki kanna ti ilana imuṣiṣẹ. Wọn ṣe akọsilẹ awọn ibeere aṣeyọri ti o fojuhan, idanwo lodi si data ojulowo ati ṣiṣan iṣẹ, ati atunbere ti o da lori awọn ilana ikuna ti a ṣakiyesi dipo awọn bori ala-akoko kan. Eyi ni ibiti oye imọ-jinlẹ yipada si agbara ti o tọ kọja ọja, eto imulo, ati awọn iṣẹ ṣiṣe.

O ṣe ilọsiwaju iraye si nipasẹ transcription, alaye, ati awọn atọkun ohun. Ni akoko kanna, ilokulo ohun ati awọn eewu imisi eniyan n pọ si nigbati igbanilaaye ba sonu. Ọna resilient julọ julọ ni lati darapọ iyara idanwo pẹlu ibawi ijọba: ṣiṣe awọn awakọ awakọ, mu ẹri mu, ṣe atẹjade awọn iwe ipinnu, ati imudojuiwọn awọn aabo nigbagbogbo bi ihuwasi awoṣe, awọn ireti olumulo, ati awọn ibeere ilana ti dagbasoke.

Ipa Ilana

O ṣe ilọsiwaju iraye si nipasẹ transcription, alaye, ati awọn atọkun ohun.

O ṣe ilọsiwaju iraye si nipasẹ transcription, alaye, ati awọn atọkun ohun. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.

Awọn ẹgbẹ Media le firanṣẹ ohun didan yiyara pẹlu awọn isuna-owo kekere.

Awọn ẹgbẹ Media le firanṣẹ ohun didan yiyara pẹlu awọn isuna-owo kekere. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.

Awọn ọna ṣiṣe ti nkọju si alabara le ṣe ilana awọn ibaraẹnisọrọ sisọ ni iwọn nla.

Awọn ọna ṣiṣe ti nkọju si alabara le ṣe ilana awọn ibaraẹnisọrọ sisọ ni iwọn nla. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.

Ojo iwaju ti SoundStream Neural Codec

SoundStream ṣe agbekalẹ awoṣe ti awọn kodẹki nigbamii bi EnCodec ati DAC ti tunmọ, ati awọn ami iyasọtọ rẹ di sobusitireti fun awọn ọna ṣiṣe ipilẹṣẹ bii AudioLM ati MusicLM. Reti awọn arọmọdọmọ titari si ọna awọn iwọn biiti kekere paapaa, awọn ami isọdi ti a ṣe atunto ti o ṣe ilọpo meji bi awọn igbewọle si awọn olupilẹṣẹ ohun aṣa ara-ede, ati imuṣiṣẹ lori ẹrọ fun awọn ipe laaye, awọn iranlọwọ igbọran, ati ṣiṣanwọle nibiti bandiwidi ati idaduro ti ni ihamọ ni wiwọ.

Real-World imuse

Fifun awọn ipe ohun si ~ 3 kbps lakoko ti o n dun ni gbangba ju awọn kodẹki julọ ni awọn iwọn biiti ti o ga julọ

Ṣiṣẹda awọn ami ohun afetigbọ ọtọtọ ti o jẹ ifunni Google's AudioLM ati awọn awoṣe ipilẹṣẹ MusicLM

Sisanwọle ohun afetigbọ kekere-akoko gidi lori awọn ẹrọ alagbeka pẹlu fifi koodu lori-CPU ati iyipada

Titoju tabi gbigbe orin ati ohun ibaramu ṣiṣẹ daradara ni awoṣe kan ti o mu gbogbo awọn iru akoonu mu

Awọn Ilana imuse

SoundStream Neural Codec ni iṣe

Fifun awọn ipe ohun si ~ 3 kbps lakoko ti o n dun ni gbangba ju awọn kodẹki julọ ni awọn iwọn biiti ti o ga julọ.

Fifun awọn ipe ohun si ~ 3 kbps lakoko ti o dun ni gbangba ju awọn kodẹki ohun-ini ni awọn iwọn bitrates ti o ga julọ Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa awọn anfani iṣelọpọ mejeeji ati awọn idiyele aṣiṣe lori akoko.

SoundStream Neural Codec ni iṣe

Ṣiṣẹda awọn ami ohun afetigbọ ọtọtọ ti o jẹ ifunni Google's AudioLM ati awọn awoṣe ipilẹṣẹ MusicLM.

Ṣiṣẹda awọn ami ohun afetigbọ ọtọtọ ti o jẹ ifunni Google's AudioLM ati awọn awoṣe ipilẹṣẹ MusicLM Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ba ṣalaye awọn ilodi didara ni iwaju, tọju ọna igbega eniyan fun awọn ọran eti, ati tọpa awọn anfani iṣelọpọ mejeeji ati awọn idiyele aṣiṣe lori akoko.

SoundStream Neural Codec ni iṣe

Sisanwọle ohun afetigbọ kekere-akoko gidi lori awọn ẹrọ alagbeka pẹlu fifi koodu on-CPU ati iyipada.

Sisanwọle ohun afetigbọ kekere-akoko gidi lori awọn ẹrọ alagbeka pẹlu fifi koodu on-CPU ati awọn ẹgbẹ iyipada nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna igbega eniyan fun awọn ọran eti, ati tọpa mejeeji awọn anfani iṣelọpọ ati awọn idiyele aṣiṣe ni akoko pupọ.

SoundStream Neural Codec ni iṣe

Titoju tabi gbigbe orin ati ohun ibaramu ṣiṣẹ daradara ni awoṣe kan ti o mu gbogbo awọn iru akoonu mu.

Titoju tabi gbigbe orin ati ohun ibaramu daradara ni awoṣe kan ti o mu gbogbo awọn oriṣi akoonu Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodiwọn didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa mejeeji awọn anfani iṣelọpọ ati awọn idiyele aṣiṣe lori akoko.

Awọn ewu & Awọn ọna iṣọ

!

ilokulo ohun ati awọn ewu afarawe ṣe pọ si nigbati igbanilaaye ba sonu.

!

Yiye le ju silẹ kọja awọn asẹnti, awọn ede-ede, tabi awọn agbegbe alariwo.

!

Ohun afetigbọ sintetiki le jẹ aṣiṣe fun ọrọ ododo laisi isamisi to yege.

Ilana Ilana imuse

1

Gba ifọkansi ti o fojuhan fun gbigba ohun, ti ẹda, ati ilotunlo.

Gba ifọkansi ti o fojuhan fun gbigba ohun, ti ẹda, ati ilotunlo. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.

2

Didara idanwo kọja awọn agbohunsoke oniruuru ati awọn ipo abẹlẹ.

Didara idanwo kọja awọn agbohunsoke oniruuru ati awọn ipo abẹlẹ. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.

3

Ṣetumo nigbati eniyan gbọdọ ṣe atunyẹwo tabi fọwọsi awọn abajade.

Ṣetumo nigbati eniyan gbọdọ ṣe atunyẹwo tabi fọwọsi awọn abajade. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.

4

Aami ohun sintetiki ki o tọju awọn igbasilẹ provenance fun iṣiro.

Aami ohun sintetiki ki o tọju awọn igbasilẹ provenance fun iṣiro. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.

Tesiwaju Ṣiṣawari