Visual AI GUIDE

Masked Autoencoders

Masked Autoencoders (MAE) inzira yekuzvitarisira inodzidzisa modhi yechiratidzo kugadzira patsva mifananidzo mushure mekunge yakawanda yemufananidzo yakavanzwa.

Overview

Masked Autoencoders (MAE) inzira yekuzvitarisira inodzidzisa modhi yechiratidzo kugadzira patsva mifananidzo mushure mekunge yakawanda yemufananidzo yakavanzwa. Nekudzidza kuzadza ma blanks, modhi inovaka hupfumi hwekunzwisisa kwekuona pasina chero mazita emunhu.

Masked Autoencoders ndeyekombuta-yekuona workflows inodudzira kana kugadzira midhiya yekuona yekuongorora, mashandiro, uye kugadzira.

Deep Dive

Masked Autoencoders, akaunzwa naKaiming He nevamwe vaaishanda navo pa Meta AI muna 2021, vanotora mufananidzo, vopatsanura kuita tudiki, uye nekungoviga chikamu chikuru kwazvo, kazhinji 75%. A Vision Transformer encoder inongogadzirisa zvigamba zvinooneka, ukuwo lightweight decoder ichiedza kuvakazve mapixel epakutanga eakashaikwa. Nekuti zvakawanda zvakavanzwa, modhi haigone kukopa mapikseli ari padyo uye inofanira kudzidza chimiro chine musoro, senge maumbirwo uye zvikamu zvechinhu. Iyo encoder kusvetuka mapeche akafukidzwa anoita kuti kudzidzisa kukurumidze uye ndangariro kushanda. Mushure mekufanodzidzira, decoder inoraswa uye encoder inotamisa zvine simba kuchikamu, kuona, uye kugovera mabasa.

Technical Insight

Iyo kiyi yehunyengeri ndeye asymmetry: iyo inorema encoder inoona chete isina kuvharwa 25% yezvigamba, nepo diki decoder inovaka imwe yasara. Mapeche anopepetwa, akaiswa mutsetse, uye anopiwa encodings yenzvimbo. Kurasika kwekuvakazve kunoreva kukanganisa kwakapetwa kwakamisikidzwa chete pazvigamba zvakavharwa, kazhinji pane zvakajairika pixel values. Yakakwira masking ratios inomanikidza kudzidza semantic pane yakaderera-level kududzira, uye kusvetuka masiki tokeni mune encoder kucheka compute zvinoshamisa maringe nekugadzirisa mufananidzo uzere.

Mastering Masked Autoencoders

Masked Autoencoders (MAE) inzira yekuzvitarisira inodzidzisa modhi yechiratidzo kugadzira patsva mifananidzo mushure mekunge yakawanda yemufananidzo yakavanzwa. Nekudzidza kuzadza ma blanks, modhi inovaka hupfumi hwekunzwisisa kwekuona pasina chero mazita emunhu. Masked Autoencoders ndeyekombuta-yekuona workflows inodudzira kana kugadzira midhiya yekuona yekuongorora, mashandiro, uye kugadzira. Kuti uvake kunzwisisa kwakadzama, bata Masked Autoencoders semuenzaniso wekushandisa, kwete chinhu chimwe chete: tsanangura zvaunoda, kujekesa fungidziro, uye kupatsanura izvo zvinogona kuitwa nehurongwa hwakavimbika kubva kune zvichiri kuda kutonga kwenyanzvi.

Mukuita, zvikwata zvakasimba zvinoshandisa Masked Autoencoders kuenzanirana nezviri kuitika semhando yedata, kusiyana kwemwenje, uye kuenderana kwemazita. Ivo vanonyora zvakajeka maitiro ebudiriro, bvunzo vachipokana ne data rechokwadi uye mafambiro ebasa, uye iterate zvichibva pane zvakacherechedzwa maitiro ekutadza kwete kuhwina-nguva imwe chete yebhenji. Apa ndipo apo kunzwisisa kwe theoretical kunoshanduka kuve kugona kwakasimba pane chigadzirwa, mutemo, uye mashandiro.

Visual AI inogona kuita otomatiki yekuongorora, yekuona, uye yekumaka mabasa pachiyero. Panguva imwecheteyo, kodzero dzeMufananidzo uye kubvumirwa kunogona kuve njodzi dzepamutemo kana hunhu husina kujeka. Nzira yakatsiga ndeyekubatanidza kukurumidza kuyedza nekutonga: mhanyisa vatyairi vendege, tora humbowo, buritsa matanda esarudzo, uye urambe uchivandudza chengetedzo semaitiro emuenzaniso, zvinotarisirwa nemushandisi, uye zvinodikanwa zvekutonga.

Strategic Impact

Visual AI inogona kuita otomatiki yekuongorora, yekuona, uye yekumaka mabasa pachiyero.

Visual AI inogona kuita otomatiki yekuongorora, yekuona, uye yekumaka mabasa pachiyero. Mukutumirwa kwemhando yepamusoro, izvi zvinoshandurirwa kuita mitemo inoyerwa yekushanda, miganhu yevaridzi, uye tsika dzekudzokorora dzinodzokororwa kuitira kuti zvikwata zvikwire kuvimba pane kukwidza kusajeka.

Zvikwata zvekugadzira zvinogona prototype pfungwa nekukurumidza nekudzokororwa kwemaoko mashoma.

Zvikwata zvekugadzira zvinogona prototype pfungwa nekukurumidza nekudzokororwa kwemaoko mashoma. Mukutumirwa kwemhando yepamusoro, izvi zvinoshandurirwa kuita mitemo inoyerwa yekushanda, miganhu yevaridzi, uye tsika dzekudzokorora dzinodzokororwa kuitira kuti zvikwata zvikwire kuvimba pane kukwidza kusajeka.

Mashandisirwo anogona kushandisa masaini emifananidzo nemavhidhiyo ayo aimbove akaoma kugadzirisa.

Mashandisirwo anogona kushandisa masaini emifananidzo nemavhidhiyo ayo aimbove akaoma kugadzirisa. Mukutumirwa kwemhando yepamusoro, izvi zvinoshandurirwa kuita mitemo inoyerwa yekushanda, miganhu yevaridzi, uye tsika dzekudzokorora dzinodzokororwa kuitira kuti zvikwata zvikwire kuvimba pane kukwidza kusajeka.

Ramangwana reMasked Autoencoders

MAE-maitiro akafukidzwa kuvakazve iri kuita yakasarudzika pretraining resipi munzira dzese. Vatsvakurudzi vari kuwedzera kuvhidhiyo (kuviga machubhu emuchadenga), maaudio spectrogram, scanning yezvokurapa, uye mifananidzo yepasatellite, uko mavara ari mashoma uye anodhura. Tarisira kusangana kwakasimba nemutauro kune multimodal nheyo modhi, madhikodha akanyanya kushanda, uye inogadzirisa masking inonangana nematunhu ane ruzivo. Sezvo komputa inokura, kudzidziswa kwakafukidzwa pamiunganidzwa mikuru isina kunyorwa kunofanirwa kuramba ichivandudza kudzika kwakadzika uku ichideredza kuvimba neanodhura zvirevo zvevanhu.

Real-World Implementation

Kufanodzidzisa Vision Transformer pamamirioni emifananidzo isina kunyorwa, wobva waigadzirisa kuti ImageNet kupatsanurwa nekurongeka kwakasimba.

Mamiriro ekudzidza kubva kuongororo yezvekurapa isina kunyorwa (X-rays, MRIs) uko rondedzero yenyanzvi inodhura uye ine mashoma.

Kuchinjisa nzira kuvhidhiyo nekuvharisa zvigamba zvemuchadenga kuti udzidzise maitiro-kuzivikanwa modhi (VhidhiyoMAE)

Kugara uchidzidzira setiraiti uye mifananidzo yemuchadenga kuti utsigire mamepu ekushandiswa kwenyika uye kushandura kuona pasina mavara emaoko

Maitiro Ekuita

Masked Autoencoders mukuita

Kufanodzidzira Vision Transformer pamamiriyoni emifananidzo isina kunyorwa, wobva waigadzirisa kuti ImageNet kupatsanurwa nekurongeka kwakasimba.

Kufanodzidzisa Vision Transformer pamamirioni emifananidzo isina kunyorwa, wozoigadzirisa zvakanaka kuti ImageNet kupatsanurwa nekusimba kwakasimba Matimu anowanzo kuwana mhedzisiro iri nani kana achinge atsanangura emhando yepamusoro kumberi, chengetedza nzira yekukwira kwevanhu yemakesi emupendero, uye kuteedzera zvese zvakawanikwa zvechigadzirwa uye kukanganisa mutengo nekufamba kwenguva.

Masked Autoencoders mukuita

Mamiriro ekudzidza kubva kuongororo yezvokurapa isina kunyorwa (X-rays, MRIs) apo rondedzero yenyanzvi inodhura uye ine shoma.

Kudzidza maficha kubva kune asina kunyorwa scanning yekurapa (X-rays, MRIs) uko nyanzvi yekuzivisa inodhura uye ine mashoma Matimu anowanzo kuwana mhedzisiro iri nani kana achinge atsanangura hunhu hwepamberi, chengetedza nzira yekukwira kwevanhu yemakesi ekumucheto, uye kuteedzera zvese zvakawanikwa zvechigadzirwa uye mutengo wekukanganisa nekufamba kwenguva.

Masked Autoencoders mukuita

Kuchinjisa nzira kuvhidhiyo nekuvharisa zvigamba zvemuchadenga kuti udzidzise maitiro-kuzivikanwa modhi (VhidhiyoMAE).

Kuchinjira nzira kuvhidhiyo nekuvharisa zvigamba zvemuchadenga kugadzirira mafambiro ekuita-kuzivikanwa modhi (VhidhiyoMAE) Matimu anowanzo kuwana mhedzisiro iri nani kana achinge atsanangura mabindu emhando kumberi, chengetedza nzira yekukwira kwevanhu yemakesi ekumucheto, uye kuteedzera zvese zvakawanikwa zvechigadzirwa nemitengo yekukanganisa nekufamba kwenguva.

Masked Autoencoders mukuita

Kugara uchidzidzira setiraiti uye mifananidzo yemuchadenga kuti utsigire mamepu ekushandiswa kwenyika uye kushandura kuona pasina mavara emaoko.

Kugara uchidzidzira setiraiti uye mifananidzo yemuchadenga kutsigira mamepu ekushandiswa kwenyika uye kushandura kutariswa pasina mavara emaoko Zvikwata zvinowanzowana mibairo iri nani pazvinenge zvichitsanangudza mabhindauko emhando kumberi, kuchengetedza nzira yekukwira kwevanhu yemakesi ekumipendero, uye kuronda zvese zvakawanikwa pakubereka uye mutengo wekukanganisa nekufamba kwenguva.

Njodzi & Guardrails

!

Kodzero dzemifananidzo uye kubvumirwa kunogona kuve njodzi dzepamutemo kana provenance isina kujeka.

!

Kuita kwemuenzaniso kunogona kusiyanisa kupenya, huwandu hwevanhu, uye nharaunda.

!

Manyepo enhema anogona kusacherechedzwa kunze kwekunge zvikumbaridzo zvekuvimba zvikatariswa.

Implementation Roadmap

1

Tsanangura maitiro ekugamuchirwa echokwadi, kurangarira, uye mutengo wekukanganisa.

Tsanangura maitiro ekugamuchirwa echokwadi, kurangarira, uye mutengo wekukanganisa. Bata nhanho yega yega segedhi rehumbowo: kana maitiro asina kusangana, imbomira kuburitsa, vhara gaka, uye wobva wawedzera kushandiswa.

2

Edzai nedata rinoenderana nemamiriro chaiwo ekugadzira.

Edzai nedata rinoenderana nemamiriro chaiwo ekugadzira. Bata nhanho yega yega segedhi rehumbowo: kana maitiro asina kusangana, imbomira kuburitsa, vhara gaka, uye wobva wawedzera kushandiswa.

3

Wedzera ongororo yemunhu kune yakaderera-kusavimbika kana yakakwirira-inokanganisa kufanotaura.

Wedzera ongororo yemunhu kune yakaderera-kusavimbika kana yakakwirira-inokanganisa kufanotaura. Bata nhanho yega yega segedhi rehumbowo: kana maitiro asina kusangana, imbomira kuburitsa, vhara gaka, uye wobva wawedzera kushandiswa.

4

Tevera modhi kudonha uye simbisa mushure mekuchinja kwekamera kana dataset.

Tevera modhi kudonha uye simbisa mushure mekuchinja kwekamera kana dataset. Bata nhanho yega yega segedhi rehumbowo: kana maitiro asina kusangana, imbomira kuburitsa, vhara gaka, uye wobva wawedzera kushandiswa.

Ramba Uchiongorora