Akopọ
DeepSpeech jẹ awoṣe idamọ ọrọ ipari-si-opin ti a ṣe nipasẹ Baidu ni ọdun 2014 ti o ṣe awọn maapu awọn ẹya ohun afetigbọ taara taara si ọrọ nipa lilo nẹtiwọọki ti nwaye loorekoore ti o ni ikẹkọ pẹlu pipadanu CTC. O ṣe iranlọwọ lati ṣe aṣaaju-ọna iyipada kuro ni eka, awọn opo gigun ti ASR ti a fi ọwọ ṣe si ọna ikẹkọ, awọn ọna ṣiṣe data.
DeepSpeech Architecture joko ni awọn ṣiṣan iṣẹ ohun-AI ti o yi ọrọ pada, orin, ati ohun fun ibaraẹnisọrọ, iraye si, ati iṣelọpọ media.
Jin Dive
Àwọn olùdámọ̀ ọ̀rọ̀ sísọ ọ̀rọ̀ sísọ jọpọ̀ àwọn àwòkọ́ọ̀sì ọ̀tọ̀ọ̀tọ̀, àwọn ìwé ìtumọ̀ ìtumọ̀ ọ̀rọ̀, àti àwọn àwòkọ́ èdè pẹ̀lú àwọn ohun èlò tí a ṣàtúnṣe. DeepSpeech rọpo pupọ julọ iyẹn pẹlu nẹtiwọọki nkankikan kan ti ikẹkọ ipari si ipari. Iṣagbekalẹ rẹ gba spectrogram tabi awọn ẹya MMFC lori awọn fireemu ohun kukuru ati ifunni wọn nipasẹ ọpọlọpọ awọn fẹlẹfẹlẹ ti o ni asopọ ni kikun, Layer loorekoore bidirectional ti o gba ipo-ọrọ lati iṣaaju ati ọjọ iwaju, ati ipele iṣelọpọ ti n ṣejade pinpin iṣeeṣe lori awọn kikọ ni igbesẹ kọọkan. Ni pataki, o nlo Isọdi Igba otutu Connectionist (CTC), eyiti o jẹ ki nẹtiwọọki kọ ẹkọ awọn titopọ laarin ohun ati ọrọ laisi nilo awọn aami ipele-fireemu. Mozilla nigbamii ṣe idasilẹ imuse orisun ṣiṣi olokiki kan (pẹlu awọn ẹya tuntun ni lilo orisun LSTM kan, apẹrẹ ṣiṣan), ti o jẹ ki ọna naa ni iraye si lọpọlọpọ.
Imọ-imọ-ẹrọ
Olupese bọtini ni pipadanu CTC. Ọrọ ati ọrọ ko ni ibamu pẹlu fireemu-nipasẹ-fireemu, nitorinaa CTC ṣafihan aami 'ofo' kan ati awọn akopọ lori gbogbo awọn titete ti o ṣeeṣe ti o ṣubu si iwe afọwọkọ ibi-afẹde. Eyi jẹ ki awoṣe gbejade ohun kikọ kan fun igbesẹ akoko ki o kọ ẹkọ nibiti awọn ohun orin ṣe maapu si awọn lẹta laifọwọyi. RNN oniwakasi kan n funni ni iraye si asọtẹlẹ kọọkan si agbegbe akositiki agbegbe, ati awoṣe ede n-gram ita ita nigbagbogbo ni a ṣafikun ni akoko ipinnu lati ṣe ilọsiwaju akọtọ ati yiyan ọrọ.
Mastering DeepSpeech Architecture
DeepSpeech jẹ awoṣe idamọ ọrọ ipari-si-opin ti a ṣe nipasẹ Baidu ni ọdun 2014 ti o ṣe awọn maapu awọn ẹya ohun afetigbọ taara taara si ọrọ nipa lilo nẹtiwọọki ti nwaye loorekoore ti o ni ikẹkọ pẹlu pipadanu CTC. O ṣe iranlọwọ lati ṣe aṣaaju-ọna iyipada kuro ni eka, awọn opo gigun ti ASR ti a fi ọwọ ṣe si ọna ikẹkọ, awọn ọna ṣiṣe data. DeepSpeech Architecture joko ni awọn ṣiṣan iṣẹ ohun-AI ti o yi ọrọ pada, orin, ati ohun fun ibaraẹnisọrọ, iraye si, ati iṣelọpọ media. Lati kọ oye ti o jinlẹ, ṣe itọju DeepSpeech Architecture bi awoṣe iṣẹ, kii ṣe ẹya ẹyọkan: ṣalaye awọn abajade ti o fẹ, ṣe alaye awọn arosọ, ati lọtọ ohun ti eto le ṣe ni igbẹkẹle lati ohun ti o tun nilo idajọ amoye.
Ni iṣe, awọn ẹgbẹ ti o lagbara ti o nlo DeepSpeech Architecture ṣe itọju didara, airi, ati ifọkansi bi awọn ẹya pataki kanna ti ilana imuṣiṣẹ. Wọn ṣe akọsilẹ awọn ibeere aṣeyọri ti o fojuhan, idanwo lodi si data ojulowo ati ṣiṣan iṣẹ, ati atunbere ti o da lori awọn ilana ikuna ti a ṣakiyesi dipo awọn bori ala-akoko kan. Eyi ni ibiti oye imọ-jinlẹ yipada si agbara ti o tọ kọja ọja, eto imulo, ati awọn iṣẹ ṣiṣe.
O ṣe ilọsiwaju iraye si nipasẹ transcription, alaye, ati awọn atọkun ohun. Ni akoko kanna, ilokulo ohun ati awọn eewu imisi eniyan n pọ si nigbati igbanilaaye ba sonu. Ọna resilient julọ julọ ni lati darapọ iyara idanwo pẹlu ibawi ijọba: ṣiṣe awọn awakọ awakọ, mu ẹri mu, ṣe atẹjade awọn iwe ipinnu, ati imudojuiwọn awọn aabo nigbagbogbo bi ihuwasi awoṣe, awọn ireti olumulo, ati awọn ibeere ilana ti dagbasoke.
Ipa Ilana
O ṣe ilọsiwaju iraye si nipasẹ transcription, alaye, ati awọn atọkun ohun.
O ṣe ilọsiwaju iraye si nipasẹ transcription, alaye, ati awọn atọkun ohun. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.
Awọn ẹgbẹ Media le firanṣẹ ohun didan yiyara pẹlu awọn isuna-owo kekere.
Awọn ẹgbẹ Media le firanṣẹ ohun didan yiyara pẹlu awọn isuna-owo kekere. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.
Awọn ọna ṣiṣe ti nkọju si alabara le ṣe ilana awọn ibaraẹnisọrọ sisọ ni iwọn nla.
Awọn ọna ṣiṣe ti nkọju si alabara le ṣe ilana awọn ibaraẹnisọrọ sisọ ni iwọn nla. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.
Real-World imuse
Aisinipo, idanimọ pipaṣẹ ohun ẹrọ lori ẹrọ fun awọn ohun elo ti o ni idojukọ ikọkọ nipa lilo DeepSpeech ṣiṣi ti Mozilla
Ṣiṣẹda awọn iwe afọwọkọ ti awọn adarọ-ese tabi awọn ikowe laisi gbigbekele iṣẹ awọsanma kan
Kikọ awọn ipilẹ ti opin-si-opin ASR ati ipadanu CTC ni awọn iṣẹ ikẹkọ ẹrọ ile-ẹkọ giga
Ṣiṣe awọn atọkun ohun aṣa fun IoT tabi awọn ẹrọ ifibọ nibiti iwuwo fẹẹrẹ kan, idanimọ ṣiṣan ti nilo
Awọn Ilana imuse
DeepSpeech Architecture ni iwa
Aisinipo, idanimọ pipaṣẹ ohun ẹrọ lori ẹrọ fun awọn ohun elo ti o dojukọ ikọkọ nipa lilo DeepSpeech ṣiṣi ti Mozilla.
Aisinipo, idanimọ pipaṣẹ ohun ẹrọ lori ẹrọ fun awọn ohun elo idojukọ ikọkọ nipa lilo Awọn ẹgbẹ DeepSpeech ṣiṣi ti Mozilla nigbagbogbo gba awọn abajade ti o dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna igbega eniyan fun awọn ọran eti, ati tọpa mejeeji awọn anfani iṣelọpọ ati awọn idiyele aṣiṣe lori akoko.
DeepSpeech Architecture ni iwa
Ṣiṣẹda awọn iwe afọwọkọ ti awọn adarọ-ese tabi awọn ikowe laisi gbigbekele iṣẹ awọsanma kan.
Ṣiṣẹda awọn iwe afọwọkọ iwe afọwọkọ ti awọn adarọ-ese tabi awọn ikowe laisi gbigbekele iṣẹ iṣẹ awọsanma Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa awọn anfani iṣelọpọ mejeeji ati awọn idiyele aṣiṣe lori akoko.
DeepSpeech Architecture ni iwa
Kikọ awọn ipilẹ ti opin-si-opin ASR ati ipadanu CTC ni awọn iṣẹ ikẹkọ ẹrọ ile-ẹkọ giga.
Kikọ awọn ipilẹ ti opin-si-opin ASR ati pipadanu CTC ni awọn iṣẹ ikẹkọ ẹrọ ile-ẹkọ giga Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna igbega eniyan fun awọn ọran eti, ati tọpa awọn anfani iṣelọpọ mejeeji ati awọn idiyele aṣiṣe ni akoko pupọ.
DeepSpeech Architecture ni iwa
Ṣiṣe awọn atọkun ohun aṣa fun IoT tabi awọn ẹrọ ifibọ nibiti iwuwo fẹẹrẹ kan, idanimọ ṣiṣan ti nilo.
Ṣiṣe awọn atọkun ohun aṣa fun IoT tabi awọn ẹrọ ifibọ nibiti iwuwo fẹẹrẹ kan, idanimọ ṣiṣan ti nilo Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa mejeeji awọn anfani iṣelọpọ ati awọn idiyele aṣiṣe lori akoko.
Awọn ewu & Awọn ọna iṣọ
ilokulo ohun ati awọn ewu afarawe ṣe pọ si nigbati igbanilaaye ba sonu.
Yiye le ju silẹ kọja awọn asẹnti, awọn ede-ede, tabi awọn agbegbe alariwo.
Ohun afetigbọ sintetiki le jẹ aṣiṣe fun ọrọ ododo laisi isamisi to yege.
Ilana Ilana imuse
Gba ifọkansi ti o fojuhan fun gbigba ohun, ti ẹda, ati ilotunlo.
Gba ifọkansi ti o fojuhan fun gbigba ohun, ti ẹda, ati ilotunlo. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.
Didara idanwo kọja awọn agbohunsoke oniruuru ati awọn ipo abẹlẹ.
Didara idanwo kọja awọn agbohunsoke oniruuru ati awọn ipo abẹlẹ. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.
Ṣetumo nigbati eniyan gbọdọ ṣe atunyẹwo tabi fọwọsi awọn abajade.
Ṣetumo nigbati eniyan gbọdọ ṣe atunyẹwo tabi fọwọsi awọn abajade. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.
Aami ohun sintetiki ki o tọju awọn igbasilẹ provenance fun iṣiro.
Aami ohun sintetiki ki o tọju awọn igbasilẹ provenance fun iṣiro. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.