MWONGOZO WA AI wa Sauti

Chanzo-Filter Vocoding na WORLD

Vokoda ni chombo ambacho hutenganisha hotuba katika vijenzi vyake na kuijenga upya.

Muhtasari

Vokoda ni chombo ambacho hutenganisha hotuba katika vijenzi vyake na kuijenga upya. Muundo wa kichujio cha chanzo na vokoda ya WORLD ni mbinu za kawaida ambazo huwezesha ubadilishaji wa maandishi hadi usemi na sauti kwa kutenganisha kile ambacho nyuzi zako za sauti hufanya na kile ambacho kinywa chako hutengeneza.

Sauti ya Kichujio cha Chanzo na WORLD hukaa katika mtiririko wa sauti-AI ambao hubadilisha usemi, muziki, na sauti kwa mawasiliano, ufikiaji, na utengenezaji wa media.

Dive ya kina

Muundo wa kichujio cha chanzo hufafanua usemi kama vipande viwili vinavyofanya kazi pamoja: chanzo (mlio kutoka kwa nyuzi zako za sauti zinazotetemeka kwa sauti zinazotamkwa, au hewa yenye kelele kwa minong'ono na konsonanti) hupitia kichujio (umbo la sauti la koo, mdomo na pua yako). Vokoda huchanganua sauti iliyorekodiwa ili kukadiria vipande hivi, kisha kuunganisha sauti mpya kutoka navyo. ULIMWENGU, iliyotolewa na Masanori Morise mwaka wa 2016, ni vokoda ya ubora wa juu ambayo hutoa vigezo vitatu: F0 (mtaro wa chanzo), bahasha ya spectral (chujio, kupitia algorithm yake ya CheapTrick), na aperiodicity (kiasi cha kelele dhidi ya tone, kupitia PLATINUM/D4C). Mitiririko hii mitatu inaweza kurekebishwa kwa kujitegemea kisha kusanifishwa upya, na kufanya WORLD kuwa kazi bora kwa TTS parametric na mifumo ya sauti ya kuimba.

Ufahamu wa Kiufundi

Nguvu ya ULIMWENGU inatokana na utengano safi. CheapTrick inakadiria bahasha laini ya mwonekano ambayo ni thabiti hadi hitilafu ndogo za F0, huku DIO/Harvest track lami na D4C ikipima upenyezaji wa bendi. Kwa sababu sauti, timbre, na kelele huishi katika mitiririko ya vigezo tofauti, unaweza kuhamisha F0 juu ya pweza bila kubadilisha sauti inasikika kama nani, au kunyoosha muda bila kubadilisha sauti. Vokoda za neural kama vile WaveNet baadaye ziliiga muundo wa wimbi moja kwa moja, lakini ULIMWENGU unabaki kuwa wa haraka, unaoweza kufasirika, na bila leseni.

Mastering Chanzo-Filter Vocoding na WORLD

Vokoda ni chombo ambacho hutenganisha hotuba katika vijenzi vyake na kuijenga upya. Muundo wa kichujio cha chanzo na vokoda ya WORLD ni mbinu za kawaida ambazo huwezesha ubadilishaji wa maandishi hadi usemi na sauti kwa kutenganisha kile ambacho nyuzi zako za sauti hufanya na kile ambacho kinywa chako hutengeneza. Sauti ya Kichujio cha Chanzo na WORLD hukaa katika mtiririko wa sauti-AI ambao hubadilisha usemi, muziki, na sauti kwa mawasiliano, ufikiaji, na utengenezaji wa media. Ili kujenga uelewaji wa kina, chukulia Sauti ya Chanzo-Kichujio na WORLD kama kielelezo cha uendeshaji, si kipengele kimoja: kufafanua matokeo yanayotarajiwa, kufafanua mawazo, na kutenganisha kile ambacho mfumo unaweza kufanya kwa uhakika na kile ambacho bado kinahitaji uamuzi wa kitaalamu.

Kwa mazoezi, timu dhabiti zinazotumia Sauti za Kichujio cha Chanzo na WORLD huchukulia ubora, muda wa kusubiri, na idhini kama sehemu muhimu sawa za mkakati wa kusambaza. Huandika vigezo dhahiri vya kufaulu, kujaribu dhidi ya data halisi na mtiririko wa kazi, na kurudia kulingana na mifumo ya kushindwa iliyoonekana badala ya ushindi wa mara moja wa benchmark. Hapa ndipo uelewa wa kinadharia unapogeuka kuwa uwezo wa kudumu katika bidhaa, sera na uendeshaji.

Huboresha ufikiaji kupitia manukuu, simulizi na violesura vya sauti. Wakati huo huo, matumizi mabaya ya Sauti na hatari za uigaji huongezeka wakati kibali kinakosekana. Mbinu thabiti zaidi ni kuchanganya kasi ya majaribio na nidhamu ya utawala: kuendesha majaribio, kunasa ushahidi, kuchapisha kumbukumbu za maamuzi, na kuendelea kusasisha ulinzi huku tabia ya kielelezo, matarajio ya watumiaji na mahitaji ya udhibiti yanapobadilika.

Athari za kimkakati

Huboresha ufikiaji kupitia manukuu, simulizi na violesura vya sauti.

Huboresha ufikiaji kupitia manukuu, simulizi na violesura vya sauti. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Timu za media zinaweza kusafirisha sauti iliyoboreshwa haraka na bajeti ndogo.

Timu za media zinaweza kusafirisha sauti iliyoboreshwa haraka na bajeti ndogo. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Mifumo inayowakabili wateja inaweza kuchakata mwingiliano wa mazungumzo kwa kiwango kikubwa.

Mifumo inayowakabili wateja inaweza kuchakata mwingiliano wa mazungumzo kwa kiwango kikubwa. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Mustakabali wa Sauti za Kichujio cha Chanzo na ULIMWENGU

Vokoda safi za kuchakata mawimbi kwa kiasi kikubwa zimepitwa na vokoda za neural (HiFi-GAN, WaveRNN) kwa uasilia wa hali ya juu, lakini WORLD haijatoweka. Inadumu kama sehemu ya mbele ya haraka, inayolingana na CPU ndani ya mabomba ya kubadilisha sauti, vianzilishi vya kuimba, na misingi ya utafiti, na vipengele vyake vya F0-plus-spectral-envelope bado hulisha miundo mingi ya neva. Tarajia mifumo mseto ambapo vigezo vinavyoweza kufasirika vya mtindo wa ULIMWENGU huongoza avkodare za neural, kuwapa waundaji udhibiti kamili wa sauti na sauti bila kuacha uhalisia.

Utekelezaji wa Ulimwengu Halisi

Zana za kubadilisha sauti zinazohamisha sauti na sauti ya mzungumzaji huku zikiweka usemi kueleweka

Sanisi za sauti zinazoimba (kama vile mfumo ikolojia wa UTAU/NNSVS) ambao husawazisha noti kwenye viunzi vipya.

Mifumo ya parametric ya maandishi-kwa-hotuba ambayo hutoa mitiririko ya F0, spectral, na aperiodicity kabla ya kutamka

Misingi ya utafiti wa hotuba ya kubadilisha sauti, kunyoosha muda, na uhariri wa prosody bila kujizoeza tena

Miundo ya Utekelezaji

Chanzo-Filter Vocoding na WORLD katika mazoezi

Zana za kubadilisha sauti zinazohamisha sauti na sauti ya mzungumzaji huku zikiweka usemi kueleweka.

Zana za kubadilisha sauti zinazohamisha sauti na sauti ya mzungumzaji huku zikiweka sauti ya matamshi kwa Timu zinazoeleweka kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya ubora wa juu, kuweka njia ya kuongezeka kwa binadamu kwa matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.

Chanzo-Filter Vocoding na WORLD katika mazoezi

Sanisi za sauti zinazoimba (kama vile mfumo ikolojia wa UTAU/NNSVS) ambao husawazisha madokezo kwenye viwango vipya.

Sanisi za sauti zinazoimba (kama vile mfumo ikolojia wa UTAU/NNSVS) ambao husawazisha noti kwenye viwanja vipya Timu kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya ubora wa juu, kuweka njia ya kupanda kwa binadamu kwa matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.

Chanzo-Filter Vocoding na WORLD katika mazoezi

Mifumo ya parametric ya maandishi-hadi-hotuba ambayo hutoa mitiririko ya F0, spectral, na aperiodicity kabla ya sauti.

Mifumo ya parametric ya kubadilisha maandishi kwa usemi ambayo hutoa mtiririko wa F0, spectral, na aperiodicity kabla ya kutoa sauti kwa kawaida Timu hupata matokeo bora zaidi zinapofafanua viwango vya ubora mbele, kuweka njia ya kupanda kwa binadamu kwa matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.

Chanzo-Filter Vocoding na WORLD katika mazoezi

Misingi ya utafiti wa hotuba ya kubadilisha sauti, kunyoosha muda, na uhariri wa prosody bila kujizoeza tena.

Misingi ya utafiti wa hotuba ya kubadilisha sauti, kunyoosha muda, na uhariri wa prosody bila kujizoeza tena Timu hupata matokeo bora zaidi zinapofafanua viwango vya ubora mbele, kuweka njia ya kupanda kwa binadamu kwa matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.

Hatari & Walinzi

!

Hatari za matumizi mabaya ya sauti na uigaji huongezeka wakati kibali kinakosekana.

!

Usahihi unaweza kushuka katika lafudhi, lahaja au mazingira yenye kelele.

!

Sauti ya syntetisk inaweza kudhaniwa kimakosa kuwa usemi halisi bila kuweka lebo wazi.

Ramani ya Utekelezaji

1

Pata idhini ya moja kwa moja ya kunasa sauti, kuunda na kutumia tena.

Pata idhini ya moja kwa moja ya kunasa sauti, kuunda na kutumia tena. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

2

Jaribu ubora kwenye spika na hali mbalimbali za usuli.

Jaribu ubora kwenye spika na hali mbalimbali za usuli. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

3

Bainisha wakati ni lazima binadamu akague au aidhinishe matokeo.

Bainisha wakati ni lazima binadamu akague au aidhinishe matokeo. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

4

Weka lebo sauti ya sintetiki na uhifadhi rekodi za asili kwa uwajibikaji.

Weka lebo sauti ya sintetiki na uhifadhi rekodi za asili kwa uwajibikaji. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

Endelea Kuchunguza