Audio AI Itọsọna

Mimi Streaming Audio Codec

Mimi jẹ koodu ohun afetigbọ nkankikan ti o rọ ọrọ sinu ṣiṣan kekere ti awọn ami iyasọtọ ni akoko gidi, nitorinaa awọn awoṣe AI le tẹtisi ati sọrọ pẹlu airi kekere pupọ.

Akopọ

Mimi jẹ koodu ohun afetigbọ nkankikan ti o rọ ọrọ sinu ṣiṣan kekere ti awọn ami iyasọtọ ni akoko gidi, nitorinaa awọn awoṣe AI le tẹtisi ati sọrọ pẹlu airi kekere pupọ. O jẹ ẹhin ohun afetigbọ lẹhin awoṣe ohun Moshi ti Kyutai.

Kodẹki Audio Streaming Mimi joko ni awọn ṣiṣan iṣẹ ohun-AI ti o yi ọrọ pada, orin, ati ohun fun ibaraẹnisọrọ, iraye si, ati iṣelọpọ media.

Jin Dive

Mimi, ti a tu silẹ nipasẹ laabu Faranse Kyutai ni ọdun 2024, jẹ kodẹki nkankikan ti o yi ohun 24 kHz pada si ṣiṣan ti awọn ami iyasọtọ ni aijọju 1.1 kbps ati awọn ami ami 12.5 nikan fun iṣẹju-aaya. O nlo kooduopo-decoder pẹlu pipọ pikito iṣẹku (RVQ), pipin awọn ami si ipele akọkọ 'semantic' distilled lati inu awoṣe ọrọ ti ara ẹni abojuto (WavLM) pẹlu ọpọlọpọ awọn ipele 'akositiki' ti o mu awoara ohun. Ni pataki o jẹ ṣiṣan ni kikun ati idi: o njade awọn ami ami bi ohun ti de dipo ki o duro de agekuru ni kikun, pẹlu bii 80 ms ti lairi. Eyi jẹ ki awoṣe ede kan tọju ọrọ bi awọn ami-ọrọ ọrọ, n fun Moshi laaye lati sọrọ ni kikun ile-meji nigba ti o tọju ohun afetigbọ ti a tunṣe ati oye.

Imọ-imọ-ẹrọ

Ẹtan Mimi jẹ ero pipin-RVQ. Iwe koodu koodu akọkọ ti ni ikẹkọ pẹlu pipadanu distillation lati baamu awọn ifibọ lati WavLM, fi ipa mu u lati gbe 'itumọ' phonetic, lakoko ti awọn iwe koodu akositiki ti o jọra tun ṣe alaye alaye igbi. Ayipada nṣiṣẹ inu igo, ati ipadanu adversarial (GAN) lori decoder pọn didara iṣẹjade. Awọn iyipada idii jẹ ki ohun gbogbo ṣiṣanwọle, nitorinaa lairi duro nitosi 80 ms.

Mastering Mimi Streaming Audio Codec

Mimi jẹ koodu ohun afetigbọ nkankikan ti o rọ ọrọ sinu ṣiṣan kekere ti awọn ami iyasọtọ ni akoko gidi, nitorinaa awọn awoṣe AI le tẹtisi ati sọrọ pẹlu airi kekere pupọ. O jẹ ẹhin ohun afetigbọ lẹhin awoṣe ohun Moshi ti Kyutai. Kodẹki Audio Streaming Mimi joko ni awọn ṣiṣan iṣẹ ohun-AI ti o yi ọrọ pada, orin, ati ohun fun ibaraẹnisọrọ, iraye si, ati iṣelọpọ media. Lati kọ oye ti o jinlẹ, ṣe itọju Mimi Streaming Audio Codec bi awoṣe iṣiṣẹ, kii ṣe ẹya ẹyọkan: ṣalaye awọn abajade ti o fẹ, ṣalaye awọn arosọ, ati yapa ohun ti eto le ṣe ni igbẹkẹle lati ohun ti o tun nilo idajọ amoye.

Ni iṣe, awọn ẹgbẹ ti o lagbara ti nlo Mimi Streaming Audio Codec itọju didara, lairi, ati igbanilaaye gẹgẹbi awọn ẹya pataki kanna ti ilana imuṣiṣẹ. Wọn ṣe akọsilẹ awọn ibeere aṣeyọri ti o fojuhan, idanwo lodi si data ojulowo ati ṣiṣan iṣẹ, ati atunbere ti o da lori awọn ilana ikuna ti a ṣakiyesi dipo awọn bori ala-akoko kan. Eyi ni ibiti oye imọ-jinlẹ yipada si agbara ti o tọ kọja ọja, eto imulo, ati awọn iṣẹ ṣiṣe.

O ṣe ilọsiwaju iraye si nipasẹ transcription, alaye, ati awọn atọkun ohun. Ni akoko kanna, ilokulo ohun ati awọn eewu imisi eniyan n pọ si nigbati igbanilaaye ba sonu. Ọna resilient julọ julọ ni lati darapọ iyara idanwo pẹlu ibawi ijọba: ṣiṣe awọn awakọ awakọ, mu ẹri mu, ṣe atẹjade awọn iwe ipinnu, ati imudojuiwọn awọn aabo nigbagbogbo bi ihuwasi awoṣe, awọn ireti olumulo, ati awọn ibeere ilana ti dagbasoke.

Ipa Ilana

O ṣe ilọsiwaju iraye si nipasẹ transcription, alaye, ati awọn atọkun ohun.

O ṣe ilọsiwaju iraye si nipasẹ transcription, alaye, ati awọn atọkun ohun. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.

Awọn ẹgbẹ Media le firanṣẹ ohun didan yiyara pẹlu awọn isuna-owo kekere.

Awọn ẹgbẹ Media le firanṣẹ ohun didan yiyara pẹlu awọn isuna-owo kekere. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.

Awọn ọna ṣiṣe ti nkọju si alabara le ṣe ilana awọn ibaraẹnisọrọ sisọ ni iwọn nla.

Awọn ọna ṣiṣe ti nkọju si alabara le ṣe ilana awọn ibaraẹnisọrọ sisọ ni iwọn nla. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.

Ojo iwaju ti Mimi Streaming Audio Codec

Reti awọn kodẹki bii Mimi lati di wiwo boṣewa laarin ohun ohun ati awọn awoṣe ede nla, titari awọn oluranlọwọ ohun akoko gidi si awọn akoko idahun 100 ms sub-100. Iwadi n ṣe awakọ awọn oṣuwọn ami paapaa kekere lakoko ti o tọju idanimọ agbọrọsọ, imolara, ati orin. Nitori Kyutai ṣiṣi-orisun Mimi ati Moshi, o ṣee ṣe lati gbin ọpọlọpọ awọn eto ṣiṣi-si-ọrọ, awọn oluranlọwọ ẹrọ, ati awọn irinṣẹ ibaraẹnisọrọ ohun-bandwidth ultra-low-low.

Real-World imuse

Agbara Kyutai's Moshi oluranlọwọ ohun-duplex ni kikun ki o le gbọ ati sọrọ ni igbakanna

Awọn ami isọsi ṣiṣanwọle sinu awoṣe ede fun itumọ akoko-gidi-si-ọrọ

Awọn ipe ohun kekere-bitrate (~ 1.1 kbps) fun talaka tabi awọn ipo nẹtiwọọki ti o kunju

Ohun afetigbọ fun ọrọ ipilẹṣẹ ati awọn opo gigun ti ọrọ-si-ọrọ ti o ronu lori ohun bi ọrọ

Awọn Ilana imuse

Mimi Streaming Audio Codec ni iṣe

Agbara Kyutai's Moshi oluranlọwọ ohun-duplex ni kikun ki o le gbọ ati sọrọ ni igbakanna.

Agbara Kyutai's Moshi oluranlọwọ ohun duplex ni kikun ki o le tẹtisi ati sọrọ nigbakanna Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna igbega eniyan fun awọn ọran eti, ati tọpa mejeeji awọn anfani iṣelọpọ ati awọn idiyele aṣiṣe lori akoko.

Mimi Streaming Audio Codec ni iṣe

Awọn ami isọsi ṣiṣanwọle sinu awoṣe ede fun itumọ akoko-gidi-si-ọrọ.

Awọn ami-ọrọ sisọ ṣiṣanwọle sinu awoṣe ede fun itumọ-ọrọ-si-ọrọ ni akoko gidi Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa awọn anfani iṣelọpọ mejeeji ati awọn idiyele aṣiṣe lori akoko.

Mimi Streaming Audio Codec ni iṣe

Awọn ipe ohun kekere-bitrate (~ 1.1 kbps) fun talaka tabi awọn ipo nẹtiwọọki ti o kunju.

Awọn ipe ohun Ultra-low-bitrate (~ 1.1 kbps) fun talaka tabi awọn ipo nẹtiwọọki ti o kunju Awọn ẹgbẹ nigbagbogbo gba awọn abajade ti o dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa awọn anfani iṣelọpọ mejeeji ati awọn idiyele aṣiṣe lori akoko.

Mimi Streaming Audio Codec ni iṣe

Ohun afetigbọ fun ọrọ ipilẹṣẹ ati awọn opo gigun ti ọrọ-si-ọrọ ti o ronu lori ohun bi ọrọ.

Ohun afetigbọ fun ọrọ ti ipilẹṣẹ ati awọn opo gigun ti ọrọ-si-ọrọ ti o ni idiyele lori ohun bi awọn ẹgbẹ ọrọ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna igbega eniyan fun awọn ọran eti, ati tọpa awọn anfani iṣelọpọ mejeeji ati awọn idiyele aṣiṣe lori akoko.

Awọn ewu & Awọn ọna iṣọ

!

ilokulo ohun ati awọn ewu afarawe ṣe pọ si nigbati igbanilaaye ba sonu.

!

Yiye le ju silẹ kọja awọn asẹnti, awọn ede-ede, tabi awọn agbegbe alariwo.

!

Ohun afetigbọ sintetiki le jẹ aṣiṣe fun ọrọ ododo laisi isamisi to yege.

Ilana Ilana imuse

1

Gba ifọkansi ti o fojuhan fun gbigba ohun, ti ẹda, ati ilotunlo.

Gba ifọkansi ti o fojuhan fun gbigba ohun, ti ẹda, ati ilotunlo. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.

2

Didara idanwo kọja awọn agbohunsoke oniruuru ati awọn ipo abẹlẹ.

Didara idanwo kọja awọn agbohunsoke oniruuru ati awọn ipo abẹlẹ. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.

3

Ṣetumo nigbati eniyan gbọdọ ṣe atunyẹwo tabi fọwọsi awọn abajade.

Ṣetumo nigbati eniyan gbọdọ ṣe atunyẹwo tabi fọwọsi awọn abajade. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.

4

Aami ohun sintetiki ki o tọju awọn igbasilẹ provenance fun iṣiro.

Aami ohun sintetiki ki o tọju awọn igbasilẹ provenance fun iṣiro. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.

Tesiwaju Ṣiṣawari