Audio AI JAGORA

Wav2Letter Convolutional ASR

Wav2Letter shine tsarin gane magana daga ƙarshen zuwa-ƙarshen daga Facebook AI wanda yayi amfani da hanyoyin sadarwa na juyi kawai, babu maimaituwa.

Dubawa

Wav2Letter shine tsarin gane magana daga ƙarshen zuwa-ƙarshen daga Facebook AI wanda yayi amfani da hanyoyin sadarwa na juyi kawai, babu maimaituwa. Yana da mahimmanci azaman madadin sauri, sauƙi mai sauƙi wanda ya tabbatar CNNs kaɗai zai iya rubuta magana cikin gasa.

Wav2Letter Convolutional ASR yana zaune a cikin ayyukan audio-AI wanda ke canza magana, kiɗa, da sauti don sadarwa, samun dama, da samar da kafofin watsa labarai.

Zurfafa nutsewa

Binciken Facebook AI ya gabatar da shi a cikin 2016, Wav2Letter ya karye daga mafi girman kai-tsaye da hanyoyin tushen HMM ta hanyar dogaro gabaɗaya akan hanyoyin sadarwa na juzu'i don taswirar sauti kai tsaye zuwa haruffa (haruffa), saboda haka sunan. An fara horar da shi tare da asarar AutoSegCriterion (ASG) na al'ada, madadin mafi sauƙi ga asarar CTC gama gari wanda ya watsar da alamar mara kyau da ƙirar wasiƙa kai tsaye. An rubuta shi a cikin C ++ ta amfani da bangon Flashlight/ArrayFire, an yi shi don saurin gudu akan CPU da GPU. Sigar baya, Wav2Letter++ da cikakken bambance-bambancen juyin juya hali, an daidaita su zuwa manyan ma'ajin bayanai kuma sun sami ƙimar kuskuren kalmomin gasa akan Librispeech. Ƙirar juyi-kawai ya sanya ta zama mai kama da juna sosai kuma mai sauƙin fahimta idan aka kwatanta da na'urori na RNN na jeri.

Fahimtar Fasaha

Wav2Letter ya tattara juzu'i na wucin gadi na 1D akan fasalulluka na sauti, tare da kowane Layer yana faɗaɗa filin karɓa don haka zurfafan rikodi suna ɗaukar dogon mahallin ba tare da maimaituwa ba. Saboda rikice-rikice suna aiwatar da duk matakan lokaci a layi daya, horarwa da tunani suna da sauri. Asarar ASG ta asali tana kama da CTC amma tana cire alamar da ba komai ba kuma tana ƙara madaidaicin madaidaicin wasiƙa zuwa wasiƙa, yana samar da cikakkiyar ma'aunin ma'auni mai banbanta wanda ke daidaita sauti mai tsayi mai tsayi zuwa fitowar hali ba tare da kowane lakabin firam ba.

Jagorar Wav2Letter Convolutional ASR

Wav2Letter shine tsarin gane magana daga ƙarshen zuwa-ƙarshen daga Facebook AI wanda yayi amfani da hanyoyin sadarwa na juyi kawai, babu maimaituwa. Yana da mahimmanci azaman madadin sauri, sauƙi mai sauƙi wanda ya tabbatar CNNs kaɗai zai iya rubuta magana cikin gasa. Wav2Letter Convolutional ASR yana zaune a cikin ayyukan audio-AI wanda ke canza magana, kiɗa, da sauti don sadarwa, samun dama, da samar da kafofin watsa labarai. Don gina zurfin fahimta, bi Wav2Letter Convolutional ASR a matsayin samfurin aiki, ba sifa ɗaya ba: ayyana sakamakon da ake so, fayyace zato, da raba abin da tsarin zai iya yi da dogaro daga abin da har yanzu yana buƙatar yanke hukunci na ƙwararru.

A aikace, ƙungiyoyi masu ƙarfi da ke amfani da Wav2Letter Convolutional ASR suna ɗaukar inganci, jinkiri, da yarda a matsayin daidaitattun sassa na dabarun turawa. Suna rubuta ƙayyadaddun ƙa'idodin nasara, gwaji akan bayanan gaskiya da gudanawar aiki, da jujjuyawar bisa ga tsarin gazawar da aka lura maimakon cin nasara na lokaci ɗaya. Wannan shine inda fahimtar ka'idar ta juya zuwa iyawa mai dorewa a cikin samfura, manufofi, da ayyuka.

Yana inganta samun dama ta hanyar rubutu, ba da labari, da mu'amalar murya. A lokaci guda, rashin amfani da murya da haɗarin kwaikwaya yana ƙaruwa lokacin da aka rasa izini. Hanyar da ta fi dacewa ita ce haɗa saurin gwaji tare da horon gudanarwa: gudanar da matukin jirgi, kama shaida, buga rajistan ayyukan yanke shawara, da ci gaba da sabunta abubuwan tsaro kamar yadda halayen ƙira, tsammanin mai amfani, da buƙatun tsari ke tasowa.

Dabarun Tasiri

Yana inganta samun dama ta hanyar rubutu, ba da labari, da mu'amalar murya.

Yana inganta samun dama ta hanyar rubutu, ba da labari, da mu'amalar murya. A cikin ƙawance masu inganci, ana fassara wannan zuwa ƙa'idodin aiki waɗanda za a iya aunawa, iyakokin ikon mallaka, da kuma bita-da-kullin bita don ƙungiyoyi su iya haɓaka kwarin gwiwa a maimakon ɓata shakku.

Ƙungiyoyin kafofin watsa labaru na iya jigilar sauti mai gogewa cikin sauri tare da ƙaramin kasafin kuɗi.

Ƙungiyoyin kafofin watsa labaru na iya jigilar sauti mai gogewa cikin sauri tare da ƙaramin kasafin kuɗi. A cikin ƙawance masu inganci, ana fassara wannan zuwa ƙa'idodin aiki waɗanda za a iya aunawa, iyakokin ikon mallaka, da kuma bita-da-kullin bita don ƙungiyoyi su iya haɓaka kwarin gwiwa a maimakon ɓata shakku.

Tsarin fuskantar abokin ciniki na iya aiwatar da hulɗar magana a mafi girman ma'auni.

Tsarin fuskantar abokin ciniki na iya aiwatar da hulɗar magana a mafi girman ma'auni. A cikin ƙawance masu inganci, ana fassara wannan zuwa ƙa'idodin aiki waɗanda za a iya aunawa, iyakokin ikon mallaka, da kuma bita-da-kullin bita don ƙungiyoyi su iya haɓaka kwarin gwiwa a maimakon ɓata shakku.

Makomar Wav2Letter Convolutional ASR

Lantarki kai tsaye na Wav2Letter yana rayuwa cikin Hasken walƙiya, ɗakin karatu na koyon injin C++ na Facebook, kuma ya sanar da samfuran wav2vec masu sarrafa kansu waɗanda yanzu suka mamaye. Babban darasi, cewa juyin juya hali da tsarin gine-gine masu kama da juna na iya dacewa da maimaitawa, ciyar da kai tsaye zuwa tushen ASR. Yi tsammanin tsarin nan gaba don ci gaba da rancen fifikon Wav2Letter akan ingantaccen, layi daya, cikakken bambance-bambancen bututun daga ƙarshen zuwa-ƙarshe yayin da ake sa ido kan horar da kai don ƙananan albarkatu.

Aiwatar da Gaskiyar Duniya

Rubutun lokaci na ainihi inda rashin jinkiri, magana mai kama da juna ya fi kima fiye da ƴan maki na daidaito

Ganewar magana ta kan na'ura ko mai ɗaure CPU waɗanda ba za su iya ba da manyan na'urori masu maimaitawa ba

Tushen bincike da ke kwatanta ASR na juyin juya hali akan RNN da tsarin canji akan Librispeech

Yin hidima a matsayin tushen injiniya don ɗakin karatu na Flashlight na Facebook da kuma samfuran wav2vec daga baya

Hanyoyin Aiwatarwa

Wav2Letter Convolutional ASR a aikace

Rubutun lokaci na ainihi inda rashin jinkiri, magana mai kama da juna ya fi kima fiye da ƴan maki na daidaito.

Rubutun lokaci na ainihi inda ƙarancin latency, bayanin layi ɗaya ya fi kima fiye da ƴan maki na daidaito Ƙungiyoyi yawanci suna samun sakamako mafi kyau lokacin da suka ayyana ma'auni masu inganci a gaba, kiyaye hanyar haɓakar ɗan adam don ƙararraki, da bin duk nasarorin samarwa da ƙimar kuskure akan lokaci.

Wav2Letter Convolutional ASR a aikace

Ganewar magana ta kan na'ura ko mai ɗaure CPU waɗanda ba za su iya ba da manyan na'urori masu maimaitawa ba.

A kan na'ura ko na'urar da aka ɗaure magana na CPU waɗanda ba za su iya ba da ƙwaƙƙwaran masu gyara na'urori masu maimaitawa Ƙungiyoyi yawanci suna samun sakamako mafi kyau lokacin da suka ayyana ma'auni masu inganci a gaba, kiyaye hanyar haɓakar ɗan adam don shari'o'in gefe, da bin duk nasarorin samarwa da ƙimar kuskure akan lokaci.

Wav2Letter Convolutional ASR a aikace

Tushen bincike da ke kwatanta ASR na juyin juya hali akan RNN da tsarin canji akan Librispeech.

Ƙididdigar bincike da ke kwatanta tsarin ASR na juyin juya hali da RNN da tsarin mai canzawa akan Ƙungiyoyin Librispeech yawanci suna samun sakamako mafi kyau lokacin da suka ayyana ma'auni masu inganci a gaba, kiyaye hanyar haɓakar ɗan adam don shari'o'i, da kuma bin duk nasarorin samarwa da farashi na kuskure akan lokaci.

Wav2Letter Convolutional ASR a aikace

Yin hidima a matsayin tushen injiniya don ɗakin karatu na Flashlight na Facebook da kuma samfuran wav2vec daga baya.

Yin aiki a matsayin tushen injiniya don ɗakin karatu na Hasken walƙiya na Facebook da kuma samfuran wav2vec daga baya Ƙungiyoyi yawanci suna samun sakamako mafi kyau lokacin da suka ayyana ƙofofin inganci a gaba, kiyaye hanyar haɓakar ɗan adam don shari'o'i, da bin diddigin nasarorin samarwa da farashi na kuskure akan lokaci.

Hatsari & Tsare-tsare

!

Rashin amfani da murya da haɗarin kwaikwaya yana ƙaruwa lokacin da aka rasa izini.

!

Daidaituwa na iya faɗuwa cikin lafuzza, yaruka, ko mahalli masu hayaniya.

!

Ana iya kuskuren sauti na roba don ingantacciyar magana ba tare da bayyananniyar lakabi ba.

Taswirar Hanya

1

Sami tabbataccen izini don ɗaukar murya, cloning, da sake amfani.

Sami tabbataccen izini don ɗaukar murya, cloning, da sake amfani. Ɗauki kowane mataki azaman ƙofar shaida: idan ba a cika sharuɗɗa ba, dakatar da fitar, rufe tazarar, sannan kawai faɗaɗa amfani.

2

Gwajin ingantattun masu magana daban-daban da yanayin baya.

Gwajin ingantattun masu magana daban-daban da yanayin baya. Ɗauki kowane mataki azaman ƙofar shaida: idan ba a cika sharuɗɗa ba, dakatar da fitar, rufe tazarar, sannan kawai faɗaɗa amfani.

3

Ƙayyade lokacin da dole ne ɗan adam ya duba ko ya amince da abubuwan da aka fitar.

Ƙayyade lokacin da dole ne ɗan adam ya duba ko ya amince da abubuwan da aka fitar. Ɗauki kowane mataki azaman ƙofar shaida: idan ba a cika sharuɗɗa ba, dakatar da fitar, rufe tazarar, sannan kawai faɗaɗa amfani.

4

Yi lakabin sauti na roba da kuma adana bayanan da aka tabbatar don yin lissafi.

Yi lakabin sauti na roba da kuma adana bayanan da aka tabbatar don yin lissafi. Ɗauki kowane mataki azaman ƙofar shaida: idan ba a cika sharuɗɗa ba, dakatar da fitar, rufe tazarar, sannan kawai faɗaɗa amfani.

Ci gaba da Bincike