MWONGOZO WA AI wa Sauti

Jukebox

Jukebox ni mtandao wa neva wa OpenAI wa 2020 ambao hutoa sauti mbichi ya muziki - kamili na sauti za kuimba, ala na hata nyimbo katika mtindo wa wasanii mahususi.

Muhtasari

Jukebox ni mtandao wa neva wa OpenAI wa 2020 ambao hutoa sauti mbichi ya muziki - kamili na sauti za kuimba, ala na hata nyimbo katika mtindo wa wasanii mahususi. Ilikuwa uthibitisho wa kihistoria kwamba AI inaweza kuiga muundo halisi wa muziki wa urefu wa wimbo, sio maelezo tu.

Jukebox hukaa katika mtiririko wa sauti-AI ambao hubadilisha matamshi, muziki na sauti kwa mawasiliano, ufikiaji na utengenezaji wa media.

Dive ya kina

Iliyotolewa na OpenAI mnamo Aprili 2020, Jukebox hutengeneza muziki kama sauti mbichi badala ya maandishi ya ishara, kumaanisha kwamba hutoa sauti halisi ikijumuisha sauti. Ilifunzwa kuhusu takriban nyimbo milioni 1.2 (takriban nusu ya lugha ya Kiingereza) zilizoondolewa kwenye wavuti, zikiwa zimeoanishwa na maneno na metadata kutoka LyricWiki. Unaweza kuiweka kulingana na aina, mtindo wa msanii, na maneno, na itaimba kwa kutambulika (ikiwa hafifu) kama msanii huyo. Matokeo huchukua dakika kadhaa kwa muda mrefu. Ukamataji ni kasi na uaminifu: uzalishaji ulikuwa wa polepole sana, ulichukua takriban saa tisa kutoa sauti kwa dakika moja, na matokeo yana ubora usio na sauti, wa kelele. Jukebox ilikuwa utafiti, sio bidhaa iliyosafishwa, lakini ilibadilisha matarajio ya kile kilichowezekana.

Ufahamu wa Kiufundi

Jukebox hubana sauti mbichi kwa kutumia visimbaji otomatiki vya VQ-VAE katika maazimio ya mara tatu, na kugeuza muundo mrefu wa wimbi kuwa mlolongo mfupi zaidi wa misimbo tofauti. Vibadilishaji Kiotomatiki basi hutabiri misimbo hii moja baada ya nyingine, zikiwekwa kulingana na msanii, aina na nyimbo, na violezo vya upanuzi huongeza maelezo ya masafa ya juu. Kusimbua misimbo ya kiwango cha chini kurudi kwenye muundo wa wimbi wa 44.1 kHz ndiko kunakofanya utayarishaji polepole sana, kwa sababu mamilioni ya sampuli za sauti lazima zitolewe kwa kufuatana.

Ustadi wa Jukebox

Jukebox ni mtandao wa neva wa OpenAI wa 2020 ambao hutoa sauti mbichi ya muziki - kamili na sauti za kuimba, ala na hata nyimbo katika mtindo wa wasanii mahususi. Ilikuwa uthibitisho wa kihistoria kwamba AI inaweza kuiga muundo halisi wa muziki wa urefu wa wimbo, sio maelezo tu. Jukebox hukaa katika mtiririko wa sauti-AI ambao hubadilisha matamshi, muziki na sauti kwa mawasiliano, ufikiaji na utengenezaji wa media. Ili kujenga uelewa wa kina, chukulia Jukebox kama kielelezo cha uendeshaji, si kipengele kimoja: fafanua matokeo unayotaka, fafanua mawazo, na utenganishe kile ambacho mfumo unaweza kufanya kwa uhakika na kile ambacho bado kinahitaji uamuzi wa kitaalamu.

Kwa mazoezi, timu dhabiti zinazotumia Jukebox huchukulia ubora, muda wa kusubiri, na idhini kama sehemu muhimu za mkakati wa kusambaza. Huandika vigezo dhahiri vya kufaulu, kujaribu dhidi ya data halisi na mtiririko wa kazi, na kurudia kulingana na mifumo ya kushindwa iliyoonekana badala ya ushindi wa mara moja wa benchmark. Hapa ndipo uelewa wa kinadharia unapogeuka kuwa uwezo wa kudumu katika bidhaa, sera na uendeshaji.

Huboresha ufikiaji kupitia manukuu, simulizi na violesura vya sauti. Wakati huo huo, matumizi mabaya ya Sauti na hatari za uigaji huongezeka wakati kibali kinakosekana. Mbinu thabiti zaidi ni kuchanganya kasi ya majaribio na nidhamu ya utawala: kuendesha majaribio, kunasa ushahidi, kuchapisha kumbukumbu za maamuzi, na kuendelea kusasisha ulinzi huku tabia ya kielelezo, matarajio ya watumiaji na mahitaji ya udhibiti yanapobadilika.

Athari za kimkakati

Huboresha ufikiaji kupitia manukuu, simulizi na violesura vya sauti.

Huboresha ufikiaji kupitia manukuu, simulizi na violesura vya sauti. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Timu za media zinaweza kusafirisha sauti iliyoboreshwa haraka na bajeti ndogo.

Timu za media zinaweza kusafirisha sauti iliyoboreshwa haraka na bajeti ndogo. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Mifumo inayowakabili wateja inaweza kuchakata mwingiliano wa mazungumzo kwa kiwango kikubwa.

Mifumo inayowakabili wateja inaweza kuchakata mwingiliano wa mazungumzo kwa kiwango kikubwa. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Mustakabali wa Jukebox

Jukebox yenyewe kwa kiasi kikubwa ni hatua muhimu ya kihistoria sasa, ikibadilishwa na usambaaji wa kasi zaidi na miundo ya sauti iliyofichika kama ile ya nyuma ya Suno na Udio ambayo hutengeneza nyimbo zenye ubora wa karibu wa CD kwa sekunde. Mawazo yake ya msingi - tokeni tofauti za sauti na hali ya maneno - huendelea kuishi katika mifumo ya kisasa. Tarajia miundo ya siku zijazo ya sauti ili kuendelea kupungua wakati wa uzalishaji, kuimarisha uwazi wa sauti, na kuongeza vidhibiti vyema, huku maswali ya hakimiliki ya Jukebox yakiibuliwa kwanza kuhusu mafunzo kuhusu rekodi zilizo na hakimiliki yanazidi kuongezeka.

Utekelezaji wa Ulimwengu Halisi

Watafiti wanaosoma jinsi mitandao ya neural inaweza kuiga sauti mbichi za muda mrefu na sauti za kuimba, kwa kutumia Jukebox kama usanifu wa kumbukumbu.

Wanamuziki na wapenda hobby wanaotengeneza nyimbo za kutisha, lo-fi 'AI' ambazo huimba nyimbo mpya kwa mtindo mbaya wa msanii aliyechaguliwa.

Waelimishaji wakionyesha mrukaji kutoka kwa utengenezaji wa noti za mtindo wa MIDI hadi usanisi kamili wa sauti mbichi na sauti.

Wasanifu wa sauti na wasanii wa majaribio wakivuna maumbo hafifu, yanayofanana na ndoto ya Jukebox kama nyenzo ghafi ya kuchanganya na kolagi.

Miundo ya Utekelezaji

Jukebox katika mazoezi

Watafiti wanaosoma jinsi mitandao ya neural inaweza kuiga sauti mbichi za muda mrefu na sauti za kuimba, kwa kutumia Jukebox kama usanifu wa kumbukumbu.

Watafiti wanaosoma jinsi mitandao ya neva inaweza kuiga sauti mbichi za muda mrefu na sauti za kuimba, kwa kutumia Jukebox kama usanifu wa marejeleo Timu kawaida hupata matokeo bora zaidi zinapofafanua vizingiti vya ubora mbele, kuweka njia ya kupanda kwa binadamu kwa visa vikali, na kufuatilia faida zote za tija na gharama za makosa kwa wakati.

Jukebox katika mazoezi

Wanamuziki na wapenda hobby wanaotengeneza nyimbo za kutisha, lo-fi 'AI' ambazo huimba nyimbo mpya kwa mtindo mbaya wa msanii aliyechaguliwa.

Wanamuziki na wapenda burudani wanaounda nyimbo za kuogofya, za lo-fi 'AI' zinazoimba nyimbo mpya kwa mtindo mbaya wa msanii aliyechaguliwa Kwa kawaida Timu hupata matokeo bora zaidi zinapofafanua viwango vya ubora wa juu, kuweka njia ya kuongezeka kwa binadamu kwa matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.

Jukebox katika mazoezi

Waelimishaji wakionyesha mrukaji kutoka kwa utengenezaji wa noti za mtindo wa MIDI hadi usanisi kamili wa sauti mbichi na sauti.

Waelimishaji wanaoonyesha mrukaji kutoka kwa utengenezaji wa noti za mtindo wa MIDI hadi usanisi kamili wa sauti mbichi na sauti. Timu kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya ubora mbele, kuweka njia ya kupanda kwa binadamu kwa matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.

Jukebox katika mazoezi

Wasanifu wa sauti na wasanii wa majaribio wakivuna maumbo hafifu, yanayofanana na ndoto ya Jukebox kama nyenzo ghafi ya kuchanganya na kolagi.

Wabunifu wa sauti na wasanii wa majaribio wanaovuna maumbo mepesi, yanayofanana na ndoto ya Jukebox kama nyenzo ghafi ya kuchanganya upya na kolagi Timu kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya ubora wa juu, kuweka njia ya kupanda juu ya matukio makali, na kufuatilia faida za tija na gharama za hitilafu kwa wakati.

Hatari & Walinzi

!

Hatari za matumizi mabaya ya sauti na uigaji huongezeka wakati kibali kinakosekana.

!

Usahihi unaweza kushuka katika lafudhi, lahaja au mazingira yenye kelele.

!

Sauti ya syntetisk inaweza kudhaniwa kimakosa kuwa usemi halisi bila kuweka lebo wazi.

Ramani ya Utekelezaji

1

Pata idhini ya moja kwa moja ya kunasa sauti, kuunda na kutumia tena.

Pata idhini ya moja kwa moja ya kunasa sauti, kuunda na kutumia tena. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

2

Jaribu ubora kwenye spika na hali mbalimbali za usuli.

Jaribu ubora kwenye spika na hali mbalimbali za usuli. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

3

Bainisha wakati ni lazima binadamu akague au aidhinishe matokeo.

Bainisha wakati ni lazima binadamu akague au aidhinishe matokeo. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

4

Weka lebo sauti ya sintetiki na uhifadhi rekodi za asili kwa uwajibikaji.

Weka lebo sauti ya sintetiki na uhifadhi rekodi za asili kwa uwajibikaji. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

Endelea Kuchunguza