MWONGOZO WA AI wa Sauti

Changamoto ya Ukandamizaji wa Kelele nyingi

Shindano la Deep Noise Suppression (DNS) ni Microsoft-shindano ambalo huwasukuma watafiti kuunda mitandao ya neva ambayo huondoa kelele ya chinichini kutoka kwa matamshi kwa wakati halisi.

Muhtasari

Shindano la Deep Noise Suppression (DNS) ni Microsoft-shindano ambalo huwasukuma watafiti kuunda mitandao ya neva ambayo huondoa kelele ya chinichini kutoka kwa matamshi kwa wakati halisi. Iliweka alama za kisasa ambazo huangazia vipengele kama vile Timu na uondoaji wa kelele wa Zoom.

Changamoto ya Ukandamizaji wa Kelele nyingi hukaa katika mtiririko wa sauti-AI ambao hubadilisha usemi, muziki na sauti kwa mawasiliano, ufikiaji na utengenezaji wa media.

Dive ya kina

Ilizinduliwa na Microsoft mwaka wa 2020 na kurudiwa kwa miaka kadhaa (mara nyingi katika INTERSPEECH na ICASSP), DNS Challenge ilizipa timu seti kubwa ya data iliyosanifiwa ya matamshi safi, klipu za kelele na rekodi za kelele zilizochanganywa. Muhimu sana, ilihamisha tathmini kutoka kwa hesabu ya mawimbi ya zamani kama PESQ kuelekea alama za usikilizaji wa binadamu na kujifunza ubashiri wa ubora unaotambulika. Pia iliongeza hali ngumu za ulimwengu halisi: vyumba vya sauti, kelele zisizotulia (kuandika, mbwa, ving'ora), sauti za sauti, na hali maalum ambapo mtindo lazima ukandamize kila mtu isipokuwa spika lengwa lililosajiliwa. Kwa kutoa data, misingi, na seti ya kawaida ya majaribio, inaruhusu maabara kulinganisha tufaha na tufaha na kuharakisha hatua kutoka kwa hila za kuchuja hadi kujifunza kwa kina kutoka mwisho hadi mwisho kwa uboreshaji wa usemi.

Ufahamu wa Kiufundi

Maingizo kawaida hulisha Fourier ya muda mfupi ya wimbi lenye kelele hubadilika na kuwa mtandao wa kawaida au wa kubadilishana ambao hutabiri kinyago cha masafa ya muda. Kuzidisha kinyago kwa wigo wa kelele hupunguza mapipa yanayotawaliwa na kelele huku kikihifadhi zile zinazotawaliwa na usemi, kisha STFT kinyume hutengeneza upya muundo wa wimbi. Sheria za wakati halisi huweka muda wa kusubiri algorithmic (takriban 40 ms) na zinahitaji uchakataji wa sababu, kwa hivyo miundo haiwezi kutazama sauti ya baadaye wakati wa kusafisha fremu ya sasa.

Kujua Changamoto ya Kukandamiza Kelele

Shindano la Deep Noise Suppression (DNS) ni Microsoft-shindano ambalo huwasukuma watafiti kuunda mitandao ya neva ambayo huondoa kelele ya chinichini kutoka kwa matamshi kwa wakati halisi. Iliweka alama za kisasa ambazo huangazia vipengele kama vile Timu na uondoaji wa kelele wa Zoom. Changamoto ya Ukandamizaji wa Kelele nyingi hukaa katika mtiririko wa sauti-AI ambao hubadilisha usemi, muziki na sauti kwa mawasiliano, ufikiaji na utengenezaji wa media. Ili kujenga uelewa wa kina, chukulia Changamoto ya Ukandamizaji wa Kelele kama kielelezo cha uendeshaji, si kipengele kimoja: kufafanua matokeo yanayotarajiwa, kufafanua mawazo, na kutenganisha kile ambacho mfumo unaweza kufanya kwa uhakika na kile ambacho bado kinahitaji uamuzi wa kitaalamu.

Kwa mazoezi, timu dhabiti zinazotumia Changamoto ya Kupunguza Kelele kwa kina huchukulia ubora, muda wa kusubiri na idhini kama sehemu muhimu za mkakati wa kusambaza. Huandika vigezo dhahiri vya kufaulu, kujaribu dhidi ya data halisi na mtiririko wa kazi, na kurudia kulingana na mifumo ya kushindwa iliyoonekana badala ya ushindi wa mara moja wa benchmark. Hapa ndipo uelewa wa kinadharia unapogeuka kuwa uwezo wa kudumu katika bidhaa, sera na uendeshaji.

Huboresha ufikiaji kupitia manukuu, simulizi na violesura vya sauti. Wakati huo huo, matumizi mabaya ya Sauti na hatari za uigaji huongezeka wakati kibali kinakosekana. Mbinu thabiti zaidi ni kuchanganya kasi ya majaribio na nidhamu ya utawala: kuendesha majaribio, kunasa ushahidi, kuchapisha kumbukumbu za maamuzi, na kuendelea kusasisha ulinzi huku tabia ya kielelezo, matarajio ya watumiaji na mahitaji ya udhibiti yanapobadilika.

Athari za kimkakati

Huboresha ufikiaji kupitia manukuu, simulizi na violesura vya sauti.

Huboresha ufikiaji kupitia manukuu, simulizi na violesura vya sauti. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Timu za media zinaweza kusafirisha sauti iliyoboreshwa haraka na bajeti ndogo.

Timu za media zinaweza kusafirisha sauti iliyoboreshwa haraka na bajeti ndogo. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Mifumo inayowakabili wateja inaweza kuchakata mwingiliano wa mazungumzo kwa kiwango kikubwa.

Mifumo inayowakabili wateja inaweza kuchakata mwingiliano wa mazungumzo kwa kiwango kikubwa. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Mustakabali wa Changamoto ya Kukandamiza Kelele Nzito

Tarajia mfumo wa kupanua kuelekea ukandamizaji wa kibinafsi na wa aina nyingi, ambapo usomaji wa midomo au alama ya sauti ya mzungumzaji huelekeza nini cha kushika. Miundo inapungua ili kuendeshwa kwenye kifaa kwa vifaa vya masikioni na visaidizi vya kusikia, na uchakataji wa bendi kamili ya 48 kHz unazidi kuwa wa kawaida ili muziki na masafa ya juu kuendelea kudumu. Mbinu za uzalishaji zinazosawazisha upya usemi safi, badala ya kelele za kuficha tu, ni mipaka inayotumika na wakati mwingine yenye utata.

Utekelezaji wa Ulimwengu Halisi

Uondoaji wa kelele-msingi katika wakati halisi katika Timu Microsoft na programu zingine za simu za video

Nasa sauti safi katika vifaa vya masikioni na vipokea sauti vya sauti wakati wa safari au mikahawa yenye shughuli nyingi

Inachakata mapema rekodi za sehemu zenye kelele kabla ya unukuu otomatiki au manukuu

Kuboresha ufahamu katika visaidizi vya kusikia na vifaa saidizi vya kusikiliza

Miundo ya Utekelezaji

Changamoto ya Ukandamizaji wa Kelele katika mazoezi

Uondoaji wa kelele-msingi katika wakati halisi katika Timu za Microsoft na programu zingine za simu za video.

Uondoaji wa kelele-halisi chinichini katika Microsoft Timu na programu zingine za simu za video Kwa kawaida, timu hupata matokeo bora zaidi zinapofafanua viwango vya juu vya ubora, kuweka njia ya kupanda juu ya hali ya kibinadamu, na kufuatilia faida za tija na gharama za hitilafu kwa wakati.

Changamoto ya Ukandamizaji wa Kelele katika mazoezi

Nasa sauti safi katika vifaa vya masikioni na vipokea sauti vya sauti wakati wa safari au mikahawa yenye shughuli nyingi.

Nasa sauti safi katika vifaa vya masikioni na vipokea sauti vya sauti wakati wa safari au mikahawa yenye shughuli nyingi Timu kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya juu vya ubora mbele, kuweka njia ya kupanda juu ya hali ya kibinadamu, na kufuatilia faida za tija na gharama za hitilafu kwa wakati.

Changamoto ya Ukandamizaji wa Kelele katika mazoezi

Inachakata mapema rekodi za sehemu zenye kelele kabla ya unukuu otomatiki au manukuu.

Kuchakata mapema rekodi za sehemu zenye kelele kabla ya unukuu otomatiki au manukuu kwa kawaida Timu hupata matokeo bora zaidi zinapofafanua viwango vya ubora wa juu, kuweka njia ya kupanda juu ya hali ya kibinadamu, na kufuatilia faida za tija na gharama za hitilafu kwa wakati.

Changamoto ya Ukandamizaji wa Kelele katika mazoezi

Kuboresha ufahamu katika visaidizi vya kusikia na vifaa saidizi vya kusikiliza.

Kuboresha ufahamu katika visaidizi vya kusikia na vifaa saidizi vya usikilizaji Timu kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya ubora wa juu, kuweka njia ya kupanda kwa binadamu kwa matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.

Hatari & Walinzi

!

Hatari za matumizi mabaya ya sauti na uigaji huongezeka wakati kibali kinakosekana.

!

Usahihi unaweza kushuka katika lafudhi, lahaja au mazingira yenye kelele.

!

Sauti ya syntetisk inaweza kudhaniwa kimakosa kuwa usemi halisi bila kuweka lebo wazi.

Ramani ya Utekelezaji

1

Pata idhini ya moja kwa moja ya kunasa sauti, kuunda na kutumia tena.

Pata idhini ya moja kwa moja ya kunasa sauti, kuunda na kutumia tena. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

2

Jaribu ubora kwenye spika na hali mbalimbali za usuli.

Jaribu ubora kwenye spika na hali mbalimbali za usuli. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

3

Bainisha wakati ni lazima binadamu akague au aidhinishe matokeo.

Bainisha wakati ni lazima binadamu akague au aidhinishe matokeo. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

4

Weka lebo sauti ya sintetiki na uhifadhi rekodi za asili kwa uwajibikaji.

Weka lebo sauti ya sintetiki na uhifadhi rekodi za asili kwa uwajibikaji. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

Endelea Kuchunguza