Muhtasari
VQ-VAE hubana picha, sauti au video kwenye gridi ndogo ya misimbo tofauti inayotolewa kutoka kwa kitabu cha msimbo kilichojifunza, badala ya nambari zinazoendelea. Uzuiaji huu wa kipekee huruhusu miundo ya mfuatano yenye nguvu kama vile Transfoma kutibu midia kama 'ishara', kama vile maneno.
VQ-VAE na Discrete Latents ni mali ya utiririshaji wa maono ya kompyuta ambayo hutafsiri au kutoa midia ya kuona kwa uchanganuzi, utendakazi na ubunifu.
Dive ya kina
VQ-VAE (Vector Quantized Variational Autoencoder), iliyoanzishwa na van den Oord na wafanyakazi wenzake katika DeepMind mnamo 2017, ni kisimbaji kiotomatiki ambacho nafasi yake fiche ni tofauti. Kisimbaji hugeuza picha kuwa gridi ya vekta zinazoendelea; kila vekta basi hunaswa hadi ingizo lake la karibu zaidi katika kitabu cha msimbo kilichojifunza cha upachikaji (idadi ya vekta). Kisimbuaji huunda upya picha kutoka kwa misimbo hiyo iliyokadiriwa. Kwa sababu lasiti sasa ni msamiati wenye kikomo wa fahirisi, muundo tofauti unaweza kujifunza usambazaji wao na kutoa maudhui mapya. Kichocheo hiki cha hatua mbili huwezesha DALL-E 1, Jukebox kwa muziki, na VQGAN, ambayo huongeza hasara ya kimawazo na pinzani kwa uundaji upya mkali. VQ-VAE-2 ilirundika maazimio mengi ili kutoa picha za uaminifu wa juu.
Ufahamu wa Kiufundi
Hatua ya kuhesabu (utafutaji wa argmin wa karibu zaidi) haiwezi kutofautishwa, kwa hivyo VQ-VAE hutumia kikadirio cha moja kwa moja: mikunjo inakiliwa moja kwa moja kutoka kwa uingizaji wa kisimbuzi kurudi kwenye pato la kisimbaji kana kwamba ujanibishaji ndio utambulisho. Mafunzo yanajumuisha upotezaji wa uundaji upya, upotezaji wa kitabu cha msimbo kinachochota upachikaji kuelekea matokeo ya programu ya kusimba, na hasara ya kujitolea ikiweka kisimbaji kujitolea kwa misimbo yake iliyochaguliwa. Hitilafu ya kawaida ni kuanguka kwa kitabu cha msimbo, ambapo misimbo michache pekee hutumika.
Kujua VQ-VAE na Latent za kipekee
VQ-VAE hubana picha, sauti au video kwenye gridi ndogo ya misimbo tofauti inayotolewa kutoka kwa kitabu cha msimbo kilichojifunza, badala ya nambari zinazoendelea. Uzuiaji huu wa kipekee huruhusu miundo ya mfuatano yenye nguvu kama vile Transfoma kutibu midia kama 'ishara', kama vile maneno. VQ-VAE na Discrete Latents ni mali ya utiririshaji wa maono ya kompyuta ambayo hutafsiri au kutoa midia ya kuona kwa uchanganuzi, utendakazi na ubunifu. Ili kujenga uelewaji wa kina, chukulia VQ-VAE na Discrete Latents kama kielelezo cha uendeshaji, si kipengele kimoja: kufafanua matokeo yanayotarajiwa, kufafanua mawazo, na kutenganisha kile ambacho mfumo unaweza kufanya kwa uhakika na kile ambacho bado kinahitaji uamuzi wa kitaalamu.
Katika mazoezi, timu imara zinazotumia VQ-VAE na Discrete Latents usahihi wa kusawazisha na hali halisi ya uendeshaji kama vile ubora wa data, tofauti ya mwanga na uthabiti wa lebo. Huandika vigezo dhahiri vya kufaulu, kujaribu dhidi ya data halisi na mtiririko wa kazi, na kurudia kulingana na mifumo ya kushindwa iliyoonekana badala ya ushindi wa mara moja wa benchmark. Hapa ndipo uelewa wa kinadharia unapogeuka kuwa uwezo wa kudumu katika bidhaa, sera na uendeshaji.
Visual AI inaweza kufanya ukaguzi, ugunduzi na kazi za kuweka lebo kiotomatiki kwa kiwango. Wakati huo huo, haki za picha na idhini zinaweza kuwa hatari za kisheria ikiwa asili haiko wazi. Mbinu thabiti zaidi ni kuchanganya kasi ya majaribio na nidhamu ya utawala: kuendesha majaribio, kunasa ushahidi, kuchapisha kumbukumbu za maamuzi, na kuendelea kusasisha ulinzi huku tabia ya kielelezo, matarajio ya watumiaji na mahitaji ya udhibiti yanapobadilika.
Athari za kimkakati
Visual AI inaweza kufanya ukaguzi, ugunduzi na kazi za kuweka lebo kiotomatiki kwa kiwango.
Visual AI inaweza kufanya ukaguzi, ugunduzi na kazi za kuweka lebo kiotomatiki kwa kiwango. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.
Timu bunifu zinaweza kuiga dhana kwa haraka zaidi na masahihisho machache ya mikono.
Timu bunifu zinaweza kuiga dhana kwa haraka zaidi na masahihisho machache ya mikono. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.
Uendeshaji unaweza kutumia ishara za picha na video ambazo hapo awali zilikuwa ngumu kuchakata.
Uendeshaji unaweza kutumia ishara za picha na video ambazo hapo awali zilikuwa ngumu kuchakata. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.
Utekelezaji wa Ulimwengu Halisi
DALL-E 1 ilitumia tokenizer ya kipekee ya VQ-VAE ili Transfoma iweze kutoa picha kama mfuatano wa fahirisi za kitabu cha msimbo.
VQGAN ilichanganya VQ-VAE na hasara za kiadui na kimtazamo ili kutoa tokeni za picha za ubora wa juu kwa ajili ya utengenezaji wa sanaa.
Jukebox ya OpenAI imetumia VQ-VAE kwa sauti mbichi, ikikandamiza muziki kuwa misimbo tofauti kwa uundaji genera.
VQ-VAE-2 imerundikwa laini za hali ya juu ili kuunganisha picha mbalimbali za uaminifu wa hali ya juu zinazoshindana na GAN za enzi yake.
Miundo ya Utekelezaji
VQ-VAE na Discrete Latents kwa vitendo
DALL-E 1 ilitumia tokenizer ya kipekee ya VQ-VAE ili Transfoma iweze kutoa picha kama mfuatano wa fahirisi za kitabu cha msimbo.
DALL-E 1 ilitumia tokenizer ya kipekee ya VQ-VAE ili Transfoma iweze kutoa picha kama mfuatano wa fahirisi za kitabu cha msimbo Timu kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya juu vya ubora mbele, kuweka njia ya kupanda juu ya matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.
VQ-VAE na Discrete Latents kwa vitendo
VQGAN ilichanganya VQ-VAE na hasara za kiadui na kimtazamo ili kutoa tokeni za picha za ubora wa juu kwa ajili ya utengenezaji wa sanaa.
VQGAN iliyochanganya VQ-VAE na hasara za kiadui na za kimawazo ili kutoa tokeni za picha za hali ya juu, zenye azimio la juu kwa Timu za utengenezaji wa sanaa kwa kawaida hupata matokeo bora zaidi zinapofafanua vizingiti vya ubora mbele, kuweka njia ya kupanda kwa binadamu kwa visa vikali, na kufuatilia faida zote za tija na gharama za makosa kwa wakati.
VQ-VAE na Discrete Latents kwa vitendo
Jukebox ya OpenAI imetumia VQ-VAE kwa sauti mbichi, ikikandamiza muziki kuwa misimbo tofauti kwa uundaji genera.
Jukebox ya OpenAI ilituma VQ-VAE kwa sauti mbichi, ikibana muziki katika misimbo tofauti kwa Timu za uundaji generece kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya juu vya ubora, kuweka njia ya kupanda juu ya matukio makali, na kufuatilia faida za tija na gharama za hitilafu kwa wakati.
VQ-VAE na Discrete Latents kwa vitendo
VQ-VAE-2 imerundikwa laini za hali ya juu ili kuunganisha picha mbalimbali za uaminifu wa hali ya juu zinazoshindana na GAN za enzi yake.
VQ-VAE-2 zilizorundikwa laini za hali ya juu ili kuunganisha picha tofauti, za uaminifu wa hali ya juu zinazoshindana na GAN za enzi yake Timu kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya juu vya ubora mbele, kuweka njia ya kupanda kwa binadamu kwa matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.
Hatari & Walinzi
Haki za picha na idhini zinaweza kuwa hatari za kisheria ikiwa asili haiko wazi.
Utendaji wa muundo unaweza kutofautiana katika mwangaza, idadi ya watu na mazingira.
Chanya za uwongo zinaweza kutotambuliwa isipokuwa viwango vya uaminifu vifuatiliwe.
Ramani ya Utekelezaji
Bainisha vigezo vya kukubalika vya usahihi, kumbukumbu na gharama za makosa.
Bainisha vigezo vya kukubalika vya usahihi, kumbukumbu na gharama za makosa. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.
Jaribu kwa kutumia data inayolingana na hali halisi ya uzalishaji.
Jaribu kwa kutumia data inayolingana na hali halisi ya uzalishaji. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.
Ongeza ukaguzi wa kibinadamu kwa utabiri wa chini au utabiri wa athari kubwa.
Ongeza ukaguzi wa kibinadamu kwa utabiri wa chini au utabiri wa athari kubwa. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.
Fuatilia mtindo wa kuteleza na uthibitishe upya baada ya mabadiliko ya kamera au mkusanyiko wa data.
Fuatilia mtindo wa kuteleza na uthibitishe upya baada ya mabadiliko ya kamera au mkusanyiko wa data. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.