GUIDE IA audio

Xamme kàddu yu am tuuti

Whisper mooy sistemu xàmmee kàddu ci saa si bu OpenAI, muy soppi audio bi def ko bind ci lu ëpp 90 làkk.

Résumé

Whisper mooy sistemu xàmmee kàddu ci saa si bu OpenAI, muy soppi audio bi def ko bind ci lu ëpp 90 làkk. Dafa am solo ndax dafa indi kalite transkripsioŋ bu jege nit ci ku nekk te doo fay, di liggéey bu baax ci aksan yi, bruit bi ci ginaaw, ak jargon teknik.

Whisper Speech Recognition mingi nekk ci biir audio-IA biy soppi kàddu, music ak son ngir jokkoo, yombal jëfandikoo gi, ak defar media.

Plongeur bu xóot

OpenAI moo ko genne ci weeru septembre 2022, Whisper xeetu enkodeer-dekodeer la bu sukkandiko ci Transformatër, ñu tàggat ko ci 680,000 waxtuy làkk yu bari, audio yu bari liggéey yuñ jëlee ci web bi. Whisper wuute na ak sistem yu njëkk ya daan soxla done yu sell, am etiketu, Whisper mingi jàngee ci enregistrement yu baaxul yi ci àdduna, moo tax mu mëna dékku ak accents, bruit ak crosstalk. Benn model mooy yonnee transkripsioŋ bi, tekki làkk wi ci Àngle, ràññee làkk wi ak joxe waxtu. Dafay yobbu ci tolluwaayu 'tu ndaw' (parametre 39M) ba 'magg' (1.55B), may jëfandikukat yi ñu jënd ak jaay gaawaay ngir gëna jubal. Ndax diisaay yi dañu leen jox lisaas ci MIT, Whisper moo nekkoon yax giñ jagleel ñiy bind podcast yu bari, jumtukaayi kapsioŋ, ak aplikaasioŋu baat daanaka ci benn guddi.

Gis-gis xarala

Whisper dafay xaaj audio bi 30 seconde, mu soppi bu nekk ci spectrogram log-Mel (80 chaine de fréquence), ba noppi yóbbu ko ci encodeur Transformer. Decodeur bi dafay wax luy waaja am ci token yi ci anam wu autoregressivement, diko teg ci ay token yu yam yuy leeral liggéey bi (trancrire vs. traduire), làkk wi, ak ndax dafay génne timestamps. Bii multitask token-conditioning mooy trik bu am xel bi: benn ensemble poids dafay def liggéey yu bari lepp di aju ci token yu gaaw yiñ joxe ci ndoortelu decodage bi.

Xam xamme kàddu yu am tuuti

Whisper mooy sistemu xàmmee kàddu ci saa si bu OpenAI, muy soppi audio bi def ko bind ci lu ëpp 90 làkk. Dafa am solo ndax dafa indi kalite transkripsioŋ bu jege nit ci ku nekk te doo fay, di liggéey bu baax ci aksan yi, bruit bi ci ginaaw, ak jargon teknik. Whisper Speech Recognition mingi nekk ci biir audio-IA biy soppi kàddu, music ak son ngir jokkoo, yombal jëfandikoo gi, ak defar media. Ngir tabax xam-xam bu xóot, jàppal Whisper Speech Recognition ni xeetu liggéey, du benn man-man: leeral njariñ yi nga bëgg, leeral xalaat yi, ak tàqale li sistem bi mëna def ci anam wu wóor ak li ba leegi soxla àtteb kàngam.

Ci jëf, ekip yu am doole yiy jëfandikoo Whisper Speech Recognition dañuy jàppee kalite, latency, ak nangu ni cër yu am solo ci pexem jëfandikoo gi. Dañuy bind kritër yu leer ngir am ndam, natt leen ci done yu dëggu ak def liggéey, ba noppi ñu baamtu ci anamu ñàkka mëna seetlu, du ci benn yoon benchmark wins. Mooy barab bi xam-xam theorie bi di soppiku nekk kàttan buy yàgg ci produit yi, ci politik yi ak ci liggéey yi.

Dafay gëna yombal jëfandikoo gi jaaraleko ci transkripsioŋ, nettali ak interfaasu baat. Ci jamano jooju, risku jëfandikoo Baat bu baaxul ak niru ak nit dafay gëna yokk sudee nanguwul. Xeetu jëf bi gëna dëgër mooy boole gaawaayu jàngat ak disipline nguur: doxal pilote, jàpp firnde, siiwal dogal yi, ak wéy di yeesal kaaraange gi ci anam wi ñuy doxalee, li jëfandikukat bi di xaar, ak sàrti sàrt yi di jëm kanam.

njeextalu pexe

Dafay gëna yombal jëfandikoo gi jaaraleko ci transkripsioŋ, nettali ak interfaasu baat.

Dafay gëna yombal jëfandikoo gi jaaraleko ci transkripsioŋ, nettali ak interfaasu baat. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.

Ekipu mejaa yi mën nañu yónnee audio bu leer ci anam wu gëna gaaw te seen xaalis gëna néew.

Ekipu mejaa yi mën nañu yónnee audio bu leer ci anam wu gëna gaaw te seen xaalis gëna néew. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.

Sistem yiy jàkkarloo ak kiliyaan bi mën nañu def waxtaan ci anam wu gëna yaatu.

Sistem yiy jàkkarloo ak kiliyaan bi mën nañu def waxtaan ci anam wu gëna yaatu. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.

Ëlëgu xàmmee kàddu yu baat

Whisper moo jur ay derivatif yu gëna gaaw yu melni Whisper.cpp, whisper yu gëna gaaw, ak yeneen yuñ distiye yuy daw ci saa si ci telefon yi ak ordinatër portable yi. Xaarandil streaming bu gëna seere (latency bu woyof), diarization bu gëna baax ci waxkat yi boole ci, ak performance bu gëna am doole ci làkk yu néew doole yi. Lu IA audio bi ci aparey bi di magg, ay xeetu Whisper yu woyof yi dinañu am doole ci kapsiyoŋ yi, notu ndaje yi, ak jumtukaayi jëfandikoo gi lëmm ci biti, baña gaawa jeexal kumpa ci noonu lañuy méngoo ak njubte gi ci niir yi.

Doxal ci àdduna dëgg

Defar ci boppam ay mbind yuñ mëna seetee ak ay mbind ngir podcast yi ak wideo YouTube

Dafay doxal aplikaasioŋu notu ndaje yiy génne ay resumé ci Zoom wala Teams audio

Tekki janoo ci làkku jàmbur ci làkku angale ngir taskati xibaar

Tabax jumtukaayi jëfandikoo gi ñuy doxalee ci baat ak dikte ngir jëfandikukat yi mënu bind

Modèlu jëfandikoo

Whisper Xamme kàddu ci jëf

Defar ci boppam ay transkripsioŋ yuñ mëna seetee ak ay mbind ngir podcast yi ak wideo YouTube yi.

Transcription ak caption yuñ mëna seetee ci seen bopp ngir podcast yi ak wideo YouTube yi Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee ay pursàntaasu kalite ci kanam, tëye yoonu eskalaasioŋ nit ngir jafe-jafe yi, ba noppi topp njariñu liggéey bi ak njëgu njuumte yi ci diir bu gàtt.

Whisper Xamme kàddu ci jëf

Dafay doxal aplikaasioŋu notu ndaje yiy defar ay resumé ci Zoom wala Teams audio.

Powering live meeting-notes apps yiy defar ay resumé ci Zoom wala Teams audio Teams yi dañuy faral di am njariñ yu gëna baax suñu leeralee ay kalite ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit ak njëgu njuumte ci diir bi.

Whisper Xamme kàddu ci jëf

Tekki janoo ci làkk wiñ bind ci làkku Àngle ngir taskati xibaar yi.

Tekki janoo ci lakk bittim réew ci bind bu Angale ngir taskatu xibaar yi. Ekip yi deñuy faral di am njariñ yu gina baax suñu joxe ay poñ yu baax ci kanam, tëye yoonu eskalaasioŋ bu nit ñi ngir jafe jafe yu magg yi, ak topp njariñu liggéey bi ak njëgu njuumte yi ci diir bu gàtt.

Whisper Xamme kàddu ci jëf

Tabax jumtukaayi jëfandikoo gi ñuy doxal ak dikte ngir jëfandikukat yi mënu bind.

Tabax jumtukaayi jëfandikoo baat ak dictation ngir jëfandikukat yi mënu bind Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee threshold yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit yi ak njëgu njuumte yi ci diir bu gàtt.

Risk yi ak balustrade yi

!

Jëfandikoo baat ci anam wu jaarul yoon ak niru ak nit dafay gëna yokk sudee nanguwul.

!

Jaar-jaar mën na wàññeeku ci aksan yi, dialect yi wala barab yu bari xumbaay.

!

Audio synthetik mën nañu ko jaawale ak wax ju dëggu sudee amul etiket bu leer.

Roadmap ngir samp gi

1

Wutal ndigal bu leer ngir jàpp baat bi, klone ko ak jëfandikoowaat ko.

Wutal ndigal bu leer ngir jàpp baat bi, klone ko ak jëfandikoowaat ko. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.

2

Saytu kalite ci kàddukat yu bari ak anam yu bari ci ginaaw.

Saytu kalite ci kàddukat yu bari ak anam yu bari ci ginaaw. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.

3

Mandargal kañ la nit wara xoolaat wala nangu ay génne.

Mandargal kañ la nit wara xoolaat wala nangu ay génne. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.

4

Etiketu audio synthetik te nga denc dokimaa ci fimu bawoo ngir mëna lim.

Etiketu audio synthetik te nga denc dokimaa ci fimu bawoo ngir mëna lim. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.

Weyal di banneexu