MWONGOZO WA AI wa Sauti

WaveNet

WaveNet, iliyoanzishwa na DeepMind mnamo 2016, ilikuwa mtandao wa neva ambao hutoa sauti mbichi sampuli moja kwa wakati, ikitoa hotuba ya asili na muziki wa kushangaza.

Muhtasari

WaveNet, iliyoanzishwa na DeepMind mnamo 2016, ilikuwa mtandao wa neva ambao hutoa sauti mbichi sampuli moja kwa wakati, ikitoa hotuba ya asili na muziki wa kushangaza. Iliweka kiwango cha kisasa cha uaminifu wa juu wa maandishi-kwa-hotuba.

WaveNet inakaa katika mtiririko wa sauti-AI ambao hubadilisha usemi, muziki na sauti kwa mawasiliano, ufikiaji, na utengenezaji wa media.

Dive ya kina

WaveNet ni kielelezo cha uzalishaji kiotomatiki: hutabiri kila sampuli ya sauti iliyowekewa sampuli zote kabla yake, kwa kawaida katika sampuli 16,000 au 24,000 kwa sekunde. Ubunifu wake wa kimsingi ni msururu wa visababishi vilivyopanuka. Causal inamaanisha kuwa mtindo hutazama nyuma tu kwa wakati, kuhifadhi mpangilio wa kizazi; upanuzi unamaanisha kuwa kila safu inaruka idadi inayoongezeka sana ya sampuli, kwa hivyo rundo la kawaida hufunika maelfu ya sampuli (sehemu pana ya kupokea) bila gharama kubwa. Ikiwekewa vipengele vya lugha au spektra ya hali ya juu, WaveNet hutoa usemi wa asili zaidi kuliko vokoda za kuunganishwa na parametric zilizoitangulia, na kuziba pengo kubwa la rekodi za binadamu na kuwezesha matoleo ya awali ya Google Msaidizi.

Ufahamu wa Kiufundi

Upanuzi uliopanuliwa ndio ujanja muhimu: kwa viwango vya upanuzi vya 1, 2, 4, 8, na kadhalika, mtandao ni makumi ya tabaka za kina tu unaweza kushughulikia maelfu ya sampuli zilizopita, ikichukua maelezo mafupi ya muundo wa wimbi na muundo mrefu wa prosodic. Vielelezo vya matokeo ya kila sampuli kama usambazaji wa kategoria (hapo awali viwango 256 kupitia upatanishaji wa sheria ya mu-sheria), na vitengo vya kuwezesha vilivyowekwa lango pamoja na miunganisho iliyobaki na ya kuruka huimarisha mafunzo ya mrundikano huu wa kina.

Mastering WaveNet

WaveNet, iliyoanzishwa na DeepMind mnamo 2016, ilikuwa mtandao wa neva ambao hutoa sauti mbichi sampuli moja kwa wakati, ikitoa hotuba ya asili na muziki wa kushangaza. Iliweka kiwango cha kisasa cha uaminifu wa juu wa maandishi-kwa-hotuba. WaveNet inakaa katika mtiririko wa sauti-AI ambao hubadilisha usemi, muziki na sauti kwa mawasiliano, ufikiaji, na utengenezaji wa media. Ili kujenga uelewaji wa kina, chukulia WaveNet kama kielelezo cha uendeshaji, si kipengele kimoja: fafanua matokeo unayotaka, fafanua mawazo, na utenganishe kile ambacho mfumo unaweza kufanya kwa uhakika na kile ambacho bado kinahitaji uamuzi wa kitaalamu.

Kwa mazoezi, timu dhabiti zinazotumia WaveNet hushughulikia ubora, muda wa kusubiri, na idhini kama sehemu muhimu sawa za mkakati wa kupeleka. Huandika vigezo dhahiri vya kufaulu, kujaribu dhidi ya data halisi na mtiririko wa kazi, na kurudia kulingana na mifumo ya kushindwa iliyoonekana badala ya ushindi wa mara moja wa benchmark. Hapa ndipo uelewa wa kinadharia unapogeuka kuwa uwezo wa kudumu katika bidhaa, sera na uendeshaji.

Huboresha ufikiaji kupitia manukuu, simulizi na violesura vya sauti. Wakati huo huo, matumizi mabaya ya Sauti na hatari za uigaji huongezeka wakati kibali kinakosekana. Mbinu thabiti zaidi ni kuchanganya kasi ya majaribio na nidhamu ya utawala: kuendesha majaribio, kunasa ushahidi, kuchapisha kumbukumbu za maamuzi, na kuendelea kusasisha ulinzi huku tabia ya kielelezo, matarajio ya watumiaji na mahitaji ya udhibiti yanapobadilika.

Athari za kimkakati

Huboresha ufikiaji kupitia manukuu, simulizi na violesura vya sauti.

Huboresha ufikiaji kupitia manukuu, simulizi na violesura vya sauti. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Timu za media zinaweza kusafirisha sauti iliyoboreshwa haraka na bajeti ndogo.

Timu za media zinaweza kusafirisha sauti iliyoboreshwa haraka na bajeti ndogo. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Mifumo inayowakabili wateja inaweza kuchakata mwingiliano wa mazungumzo kwa kiwango kikubwa.

Mifumo inayowakabili wateja inaweza kuchakata mwingiliano wa mazungumzo kwa kiwango kikubwa. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Mustakabali wa WaveNet

Original WaveNet ilikuwa polepole kwa sababu sampuli ni mfuatano. Waliofuata walirekebisha hili: WaveNet Sambamba na WaveRNN waliwezesha usanisi wa wakati halisi, na baadaye vokoda za mtiririko- na GAN kama vile WaveGlow na HiFi-GAN, pamoja na vokoda za uenezaji, zilisukuma ubora na kasi zaidi. Mawazo ya moja kwa moja ya WaveNet, yaliyopanuka-mabadiliko yanaishi katika mifumo hii na kuathiri usanifu zaidi ya sauti, ikiimarisha urithi wake katika uundaji generative.

Utekelezaji wa Ulimwengu Halisi

Kuzalisha sauti za asili za Google Mratibu na Google Maandishi-hadi-Hotuba ya Wingu

Inafanya kazi kama vokoda ya neural ambayo inabadilisha spectrogramu za mel kuwa muundo wa wimbi katika bomba la TTS kama Tacotron 2.

Inakusanya piano halisi na muziki wa ala kutoka kwa sauti mbichi

Usanisi wa sauti kwa zana za ufikivu na usimulizi wa kitabu cha sauti

Miundo ya Utekelezaji

WaveNet katika mazoezi

Inazalisha sauti asilia za Google Mratibu na Google Maandishi-hadi-Hotuba ya Wingu.

Kuzalisha sauti asilia za Google Mratibu na Google Timu za Kusoma na Maandishi kwenye Wingu kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya ubora wa juu, kuweka njia ya kupanda juu ya hali ya kibinadamu kwa matukio makali, na kufuatilia faida zote za tija na gharama za hitilafu kwa muda.

WaveNet katika mazoezi

Inafanya kazi kama vokoda ya neva ambayo hubadilisha spectrogramu za mel kuwa muundo wa mawimbi katika mabomba ya TTS kama Tacotron 2.

Ikifanya kazi kama sauti ya sauti inayobadilisha spektra za mel kuwa muundo wa mawimbi katika mabomba ya TTS kama vile Timu za Tacotron 2 kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya ubora mbele, kuweka njia ya kupanda kwa binadamu kwa matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.

WaveNet katika mazoezi

Inakusanya piano halisi na muziki wa ala kutoka kwa sauti mbichi.

Kusawazisha piano halisi na muziki wa ala kutoka kwa Timu za sauti mbichi kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya ubora wa juu, kuweka njia ya kupanda kwa binadamu kwa matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.

WaveNet katika mazoezi

Usanisi wa sauti kwa zana za ufikivu na usimulizi wa kitabu cha sauti.

Usanifu wa sauti kwa zana za ufikivu na usimulizi wa kitabu cha sauti kwa kawaida Timu hupata matokeo bora zaidi zinapofafanua viwango vya ubora wa juu, kuweka njia ya kupanda kwa binadamu kwa matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.

Hatari & Walinzi

!

Hatari za matumizi mabaya ya sauti na uigaji huongezeka wakati kibali kinakosekana.

!

Usahihi unaweza kushuka katika lafudhi, lahaja au mazingira yenye kelele.

!

Sauti ya syntetisk inaweza kudhaniwa kimakosa kuwa usemi halisi bila kuweka lebo wazi.

Ramani ya Utekelezaji

1

Pata idhini ya moja kwa moja ya kunasa sauti, kuunda na kutumia tena.

Pata idhini ya moja kwa moja ya kunasa sauti, kuunda na kutumia tena. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

2

Jaribu ubora kwenye spika na hali mbalimbali za usuli.

Jaribu ubora kwenye spika na hali mbalimbali za usuli. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

3

Bainisha wakati ni lazima binadamu akague au aidhinishe matokeo.

Bainisha wakati ni lazima binadamu akague au aidhinishe matokeo. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

4

Weka lebo sauti ya sintetiki na uhifadhi rekodi za asili kwa uwajibikaji.

Weka lebo sauti ya sintetiki na uhifadhi rekodi za asili kwa uwajibikaji. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

Endelea Kuchunguza