Visual AI GUIDE

VQ-VAE na latent dị iche

VQ-VAE na-echikota onyonyo, ọdịyo, ma ọ bụ vidiyo n'ime obere grid nke koodu pụrụ iche ewepụtara na koodu koodu amụtara, kama ọnụọgụgụ na-aga n'ihu.

Nchịkọta

VQ-VAE na-echikota onyonyo, ọdịyo, ma ọ bụ vidiyo n'ime obere grid nke koodu pụrụ iche ewepụtara na koodu koodu amụtara, kama ọnụọgụgụ na-aga n'ihu. Nke a pụrụ iche bottlene na-ahapụ ike usoro usoro dị ka Transformers na-emeso mgbasa ozi dị ka 'token', dị nnọọ ka okwu.

VQ-VAE na Discrete Latents bụ nke kọmpụta na-arụ ọrụ ọhụụ nke na-akọwa ma ọ bụ mepụta mgbasa ozi anya maka nyocha, ọrụ na imepụta ihe.

Ime miri emi

VQ-VAE (Vector Quantized Variational Autoencoder), nke van den Oord na ndị ọrụ ibe ya na DeepMind webatara na 2017, bụ onye na-ede koodu autoen nke oghere ya nwere ezi uche. Ihe ngbanwe na-atụgharị onyonyo ka ọ bụrụ grid nke vector na-aga n'ihu; A na-etinyezi vector nke ọ bụla na ntinye kacha nso na akwụkwọ ntinye akwụkwọ mmụta (vector quantization). Ihe ngbanwe ahụ na-ewughachi onyonyo a site na koodu ndị ahụ agbapụtara. N'ihi na latent bụzi mkpụrụokwu nwere oke nke indices, ụdị dị iche nwere ike mụta nkesa ha wee mepụta ọdịnaya ọhụrụ. Ntụziaka nke agba abụọ a na-enye ike DALL-E 1, Jukebox maka egwu, na VQGAN, nke na-agbakwunye mfu nghọta na mgbagha maka nrụzigharị dị nkọ. VQ-VAE-2 chịkọtara ọtụtụ mkpebi iji mepụta onyonyo nwere ntụkwasị obi dị elu.

Nghọta nka nka

Nzọụkwụ quantization (argmin nso-agbataobi nchọta) abụghị ihe dị iche, ya mere VQ-VAE na-eji a ogologo-site estimator: gradients na-e depụtaghachiri ozugbo site decoder ntinye azụ na encoder mmepụta dị ka a ga-asị na quantization bụ njirimara. Ọzụzụ na-ejikọta mfu nrụzigharị, mfu codebook na-adọta ntinye na ntinye koodu, yana mfu ntinye aka na-edobe koodu ntinye aka na koodu ọ họọrọ. Ọdịda na-adịkarị bụ ọdịda codebook, ebe a na-eji naanị koodu ole na ole.

Ịkwado VQ-VAE na Latent pụrụ iche

VQ-VAE na-echikota onyonyo, ọdịyo, ma ọ bụ vidiyo n'ime obere grid nke koodu pụrụ iche ewepụtara na koodu koodu amụtara, kama ọnụọgụgụ na-aga n'ihu. Nke a pụrụ iche bottlene na-ahapụ ike usoro usoro dị ka Transformers na-emeso mgbasa ozi dị ka 'token', dị nnọọ ka okwu. VQ-VAE na Discrete Latents bụ nke kọmpụta na-arụ ọrụ ọhụụ nke na-akọwa ma ọ bụ mepụta mgbasa ozi anya maka nyocha, ọrụ na imepụta ihe. Iji wulite nghọta miri emi, na-emeso VQ-VAE na Discrete Latents dị ka ihe nlere anya na-arụ ọrụ, ọ bụghị otu njirimara: kọwaa nsonaazụ achọrọ, dokwuo anya echiche, ma kewaa ihe sistemụ nwere ike ime nke ọma na ihe ka na-achọ mkpebi ndị ọkachamara.

Na omume, ndị otu siri ike na-eji VQ-VAE na Discrete Latents na-emezi ihe ziri ezi na eziokwu arụ ọrụ dị ka ogo data, iche iche ọkụ, na ịdekọ aha. Ha na-edepụta njirisi ịga nke ọma nke ọma, nwalee megide data ziri ezi yana usoro ọrụ, yana na-atụgharị dabere na usoro ọdịda ahụrụ karịa karịa mmeri otu oge. Nke a bụ ebe nghọta usoro ihe atụ na-atụgharị ghọọ ike na-adịgide adịgide n'ofe ngwaahịa, amụma na arụmọrụ.

Visual AI nwere ike megharịa nyocha, nchọpụta na mkpado ọrụ n'ọtụtụ. N'otu oge ahụ, ikike onyonyo na nkwenye nwere ike bụrụ ihe egwu iwu ma ọ bụrụ na edoghị anya. Ụzọ kachasị na-agbanwe agbanwe bụ ijikọ ọsọ nnwale na ịdọ aka ná ntị ọchịchị: ndị na-anya ụgbọ elu, ijide ihe akaebe, bipụta ndekọ mkpebi, na na-aga n'ihu na-emelite nchekwa dị ka omume nlereanya, atụmanya ndị ọrụ, na ihe iwu chọrọ.

Mmetụta atụmatụ

Visual AI nwere ike megharịa nyocha, nchọpụta na mkpado ọrụ n'ọtụtụ.

Visual AI nwere ike megharịa nyocha, nchọpụta na mkpado ọrụ n'ọtụtụ. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Otu ndị na-emepụta ihe nwere ike imepụta echiche ngwa ngwa site na ngbanwe akwụkwọ ntuziaka ole na ole.

Otu ndị na-emepụta ihe nwere ike imepụta echiche ngwa ngwa site na ngbanwe akwụkwọ ntuziaka ole na ole. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Ọrụ nwere ike iji onyonyo na akara vidiyo siri ike ịhazi.

Ọrụ nwere ike iji onyonyo na akara vidiyo siri ike ịhazi. N'ịkwanye ọkwa dị elu, a na-atụgharị nke a ka ọ bụrụ iwu arụ ọrụ enwere ike ịtụnye, oke nwe, na emume ntụlegharị ugboro ugboro ka ndị otu wee nwee ike ịbawanye ntụkwasị obi kama iwelite enweghị mgbagha.

Ọdịnihu nke VQ-VAE na Latent pụrụ iche

Latent dị iche iche bụ isi ihe na-aga n'ihu n'ụdị multimodal jikọtara ọnụ nke na-eme ka onyonyo, ọdịyo na vidiyo bụrụ otu okwu dị ka ederede. Mmelite dị ka mbelata na mbelata scalar quantization, nnukwu codebooks, na nhazi nke ojiji ka mma na-ebelata ndakpọ na ịkwalite ntụkwasị obi. Dị ka ụdị na-achọ ịghọta ma mepụta n'ofe usoro, tokenizers siri ike wuru na echiche VQ-VAE ga-anọgide na-abụ ihe ndabere, na-asọ mpi na ijikọta na nso nso a na-aga n'ihu.

Mmejuputa n'ezie n'ụwa

DALL-E 1 jiri ihe pụrụ iche VQ-VAE tokenizer ka onye ntụgharị nwee ike iwepụta onyonyo dịka usoro nke indices codebook.

VQGAN jikọtara VQ-VAE na nhụsianya na nhụsianya na-efunahụ iji mepụta akara ngosi onyonyo dị elu, nke dị elu maka ọgbọ nka.

OpenAI's Jukebox tinye VQ-VAE na ọdịyo raw, na-atụgharị egwu n'ime koodu ndị pụrụ iche maka imepụta ụdị.

VQ-VAE-2 kpokọtara latents hierarchical discrete iji mepụta ụdị dị iche iche, onyonyo ntụkwasị obi dị elu na-emegide GAN nke oge ya.

Usoro mmejuputa

VQ-VAE na latent pụrụ iche na omume

DALL-E 1 jiri ihe pụrụ iche VQ-VAE tokenizer ka onye ntụgharị nwee ike iwepụta onyonyo dịka usoro nke indices codebook.

DALL-E 1 jiri discrete VQ-VAE tokenizer ka onye ntụgharị nwere ike iwepụta onyonyo dị ka usoro nke codebook indices Otu dị iche iche na-enwetakarị nsonaazụ kacha mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, na-edobe ụzọ ịrị elu mmadụ maka ikpe ọnụ, ma soro ma uru nrụpụta yana ụgwọ njehie n'ime oge.

VQ-VAE na latent pụrụ iche na omume

VQGAN jikọtara VQ-VAE na nhụsianya na nhụsianya na-efunahụ iji mepụta akara ngosi onyonyo dị elu, nke dị elu maka ọgbọ nka.

VQGAN jikọtara VQ-VAE na nhụsianya na nhụsianya iji mepụta akara ngosi onyonyo dị elu maka ọgbọ nka nka na-enwetakarị nsonaazụ kacha mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, na-edobe ụzọ mmụba mmadụ maka ikpe ikpe, ma soro ma uru nrụpụta yana ụgwọ njehie n'ime oge.

VQ-VAE na latent pụrụ iche na omume

OpenAI's Jukebox tinye VQ-VAE na ọdịyo raw, na-atụgharị egwu n'ime koodu ndị pụrụ iche maka imepụta ụdị.

OpenAI's Jukebox tinye VQ-VAE na audio raw, ịpịkọta egwu n'ime koodu pụrụ iche maka otu ụdị mmepụta ihe na-enwetakarị nsonaazụ kacha mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, debe ụzọ mmụba mmadụ maka ọnụ ọnụ, ma soro ma uru nrụpụta yana ọnụ ahịa njehie ka oge na-aga.

VQ-VAE na latent pụrụ iche na omume

VQ-VAE-2 kpokọtara latents hierarchical discrete iji mepụta ụdị dị iche iche, onyonyo ntụkwasị obi dị elu na-emegide GAN nke oge ya.

VQ-VAE-2 stacked hierarchical discrete latents iji mepụta ụdị dị iche iche, onyonyo ntụkwasị obi dị elu na-asọ mpi GAN nke ndị otu ya na-enwetakarị nsonaazụ kacha mma mgbe ha na-akọwapụta ọnụ ụzọ dị mma n'ihu, debe ụzọ mmụba mmadụ maka oke ọnụ, wee soro ma uru nrụpụta yana ọnụ ahịa njehie ka oge na-aga.

Ihe ize ndụ & okporo ụzọ nche

!

Ikike onyonyo na nkwenye nwere ike bụrụ ihe egwu dị n'iwu ma ọ bụrụ na edoghị anya.

!

Ọrụ nlereanya nwere ike ịdịgasị iche n'ofe ọkụ, igwe mmadụ, na gburugburu.

!

Enwere ike ghara ịhụ ihe dị mma ma ọ bụrụ na enyochaghị oke ntụkwasị obi.

Map mmejuputa

1

Kọwaa ụkpụrụ nnabata maka nkenke, icheta, na ụgwọ njehie.

Kọwaa ụkpụrụ nnabata maka nkenke, icheta, na ụgwọ njehie. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

2

Nwalee na data dabara na ọnọdụ mmepụta n'ezie.

Nwalee na data dabara na ọnọdụ mmepụta n'ezie. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

3

Tinye nyocha mmadụ maka obere obi ike ma ọ bụ amụma mmetụta dị elu.

Tinye nyocha mmadụ maka obere obi ike ma ọ bụ amụma mmetụta dị elu. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

4

Sochie ihe nlere anya wee megharịa ka emechara mgbanwe igwefoto ma ọ bụ dataset.

Sochie ihe nlere anya wee megharịa ka emechara mgbanwe igwefoto ma ọ bụ dataset. Mesoo nzọụkwụ ọ bụla dị ka ọnụ ụzọ akaebe: ọ bụrụ na emezughị ụkpụrụ, kwụsịtụ mbugharị, mechie oghere ahụ, naanị wee gbasaa ojiji.

Nọgide na-eme nchọpụta