Mwongozo wa AI unaoonekana

Visimbaji Kiotomatiki Vilivyofichwa

Masked Autoencoders (MAE) ni njia inayojisimamia ambayo hufunza muundo wa maono kuunda upya picha baada ya picha nyingi kufichwa.

Muhtasari

Masked Autoencoders (MAE) ni njia inayojisimamia ambayo hufunza muundo wa maono kuunda upya picha baada ya picha nyingi kufichwa. Kwa kujifunza kujaza nafasi zilizoachwa wazi, modeli hujenga uelewa mzuri wa kuona bila lebo zozote za kibinadamu.

Visimbaji Kiotomatiki vilivyofichwa ni mali ya utiririshaji wa maono ya kompyuta ambayo hutafsiri au kutoa midia ya kuona kwa uchanganuzi, utendakazi na ubunifu.

Dive ya kina

Visimbaji Kiotomatiki vilivyofichwa, vilivyoletwa na Kaiming He na wafanyakazi wenzake katika Meta AI mnamo 2021, huchukua picha, na kuigawanya katika mabaka madogo, na kuficha kwa nasibu sehemu kubwa sana, mara nyingi 75%. Kisimbaji cha Kibadilishaji Maono huchakata tu viraka vinavyoonekana, huku kipunguza sauti chepesi hujaribu kuunda upya saizi asili za zile ambazo hazipo. Kwa sababu mengi yamefichwa, modeli haiwezi kunakili saizi zilizo karibu na lazima ijifunze muundo wa maana, kama maumbo na sehemu za kitu. Kisimbaji kuruka viraka vilivyofunikwa hufanya mafunzo kuwa ya haraka na ya ufanisi wa kumbukumbu. Baada ya kufanya mazoezi ya awali, avkodare hutupwa na kisimbaji huhamishwa kwa nguvu hadi kwa uainishaji, ugunduzi na kazi za ugawaji.

Ufahamu wa Kiufundi

Ujanja muhimu ni asymmetry: kisimbaji kizito huona tu 25% ya viraka vilivyofichuliwa, wakati avkodare ndogo hutengeneza zingine. Viraka hubanwa, kupachikwa kimstari, na kupewa usimbaji mkao. Upotezaji wa uundaji upya ni maana ya hitilafu ya mraba iliyokokotwa tu kwenye viraka vilivyofunikwa, kwa kawaida kwenye thamani za pikseli zilizosawazishwa. Uwiano wa juu wa ufunikaji hulazimisha ujifunzaji wa kisemantiki badala ya ufasiri wa kiwango cha chini, na kuruka tokeni zilizofichwa kwenye vipunguzo vya kisimbaji hukusanya kwa kiasi kikubwa dhidi ya kuchakata picha kamili.

Kujua Visimbaji Kiotomatiki vilivyowekwa Masked

Masked Autoencoders (MAE) ni njia inayojisimamia ambayo hufunza muundo wa maono kuunda upya picha baada ya picha nyingi kufichwa. Kwa kujifunza kujaza nafasi zilizoachwa wazi, modeli hujenga uelewa mzuri wa kuona bila lebo zozote za kibinadamu. Visimbaji Kiotomatiki vilivyofichwa ni mali ya utiririshaji wa maono ya kompyuta ambayo hutafsiri au kutoa midia ya kuona kwa uchanganuzi, utendakazi na ubunifu. Ili kujenga uelewaji wa kina, chukulia Visimbaji Kiotomatiki vilivyowekwa Masked kama kielelezo cha uendeshaji, si kipengele kimoja: kufafanua matokeo unayotaka, kufafanua mawazo, na kutenganisha kile ambacho mfumo unaweza kufanya kwa uhakika na kile ambacho bado kinahitaji uamuzi wa kitaalamu.

Katika mazoezi, timu dhabiti zinazotumia Usawazishaji Kiotomatiki wa Masked na hali halisi ya uendeshaji kama vile ubora wa data, tofauti ya mwanga na uthabiti wa lebo. Huandika vigezo dhahiri vya kufaulu, kujaribu dhidi ya data halisi na mtiririko wa kazi, na kurudia kulingana na mifumo ya kushindwa iliyoonekana badala ya ushindi wa mara moja wa benchmark. Hapa ndipo uelewa wa kinadharia unapogeuka kuwa uwezo wa kudumu katika bidhaa, sera na uendeshaji.

Visual AI inaweza kufanya ukaguzi, ugunduzi na kazi za kuweka lebo kiotomatiki kwa kiwango. Wakati huo huo, haki za picha na idhini zinaweza kuwa hatari za kisheria ikiwa asili haiko wazi. Mbinu thabiti zaidi ni kuchanganya kasi ya majaribio na nidhamu ya utawala: kuendesha majaribio, kunasa ushahidi, kuchapisha kumbukumbu za maamuzi, na kuendelea kusasisha ulinzi huku tabia ya kielelezo, matarajio ya watumiaji na mahitaji ya udhibiti yanapobadilika.

Athari za kimkakati

Visual AI inaweza kufanya ukaguzi, ugunduzi na kazi za kuweka lebo kiotomatiki kwa kiwango.

Visual AI inaweza kufanya ukaguzi, ugunduzi na kazi za kuweka lebo kiotomatiki kwa kiwango. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Timu bunifu zinaweza kuiga dhana kwa haraka zaidi na masahihisho machache ya mikono.

Timu bunifu zinaweza kuiga dhana kwa haraka zaidi na masahihisho machache ya mikono. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Uendeshaji unaweza kutumia ishara za picha na video ambazo hapo awali zilikuwa ngumu kuchakata.

Uendeshaji unaweza kutumia ishara za picha na video ambazo hapo awali zilikuwa ngumu kuchakata. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Mustakabali wa Visimbaji Kiotomatiki vilivyofichwa

Uundaji upya wenye vinyago vya mtindo wa MAE unakuwa kichocheo chaguo-msingi cha mafunzo ya awali katika mbinu zote. Watafiti wanaipanua hadi video (kuficha cubes za muda), spectrogramu za sauti, uchunguzi wa kimatibabu, na picha za setilaiti, ambapo lebo ni chache na za gharama kubwa. Tarajia muunganisho mkali zaidi wa lugha kwa miundo ya msingi ya moduli nyingi, avkodare bora zaidi na ufunikaji unaoweza kubadilika unaolenga maeneo yenye taarifa. Kadiri hesabu inavyokua, mafunzo ya awali yaliyofichwa kwenye mikusanyiko mikubwa ya picha isiyo na lebo inapaswa kuendelea kuboresha usahihi wa mkondo huku ikipunguza kutegemea ufafanuzi wa gharama kubwa wa kibinadamu.

Utekelezaji wa Ulimwengu Halisi

Kuandaa Kibadilishaji Maono mapema kwenye mamilioni ya picha zisizo na lebo, kisha kuisanikisha kwa uainishaji wa ImageNet kwa usahihi mkubwa.

Vipengele vya kujifunzia kutoka kwa uchunguzi wa kimatibabu usio na lebo (X-rays, MRIs) ambapo ufafanuzi wa kitaalamu ni ghali na mdogo.

Kurekebisha mbinu kwa video kwa kuficha viraka vya muda wa angani ili kutoa mafunzo ya awali ya vielelezo vya utambuzi wa vitendo (VideoMAE)

Kujizoeza mapema kuhusu picha za setilaiti na angani ili kusaidia uchoraji wa ramani ya matumizi ya ardhi na ugunduzi wa mabadiliko bila lebo za mikono

Miundo ya Utekelezaji

Visimbaji Kiotomatiki vilivyofichwa katika mazoezi

Kuandaa Kibadilishaji Maono mapema kwenye mamilioni ya picha zisizo na lebo, kisha kuisanikisha vyema kwa uainishaji wa ImageNet kwa usahihi mkubwa.

Kuandaa Kibadilishaji Maono mapema kwenye mamilioni ya picha zisizo na lebo, kisha kuisanikisha vyema kwa uainishaji wa ImageNet kwa usahihi mkubwa Timu kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya juu vya ubora, kuweka njia ya kupanda juu ya matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.

Visimbaji Kiotomatiki vilivyofichwa katika mazoezi

Vipengele vya kujifunzia kutoka kwa uchunguzi wa kimatibabu usio na lebo (X-rays, MRIs) ambapo ufafanuzi wa kitaalamu ni ghali na mdogo.

Vipengele vya kujifunzia kutoka kwa uchunguzi wa kimatibabu usio na lebo (X-rays, MRIs) ambapo ufafanuzi wa kitaalamu ni ghali na wenye mipaka Timu kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya juu vya ubora, kuweka njia ya kuongezeka kwa binadamu kwa matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.

Visimbaji Kiotomatiki vilivyofichwa katika mazoezi

Kurekebisha mbinu hadi video kwa kuficha alama za muda wa angani ili kutoa mafunzo ya awali ya miundo ya utambuzi wa vitendo (VideoMAE).

Kurekebisha mbinu hadi video kwa kuficha alama za muda wa angani ili kutoa mafunzo mapema kwa miundo ya utambuzi wa vitendo (VideoMAE) Timu kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya ubora mbele, kuweka njia ya kupanda kwa binadamu kwa matukio makali, na kufuatilia faida za tija na gharama za hitilafu kwa wakati.

Visimbaji Kiotomatiki vilivyofichwa katika mazoezi

Kujizoeza mapema kuhusu picha za setilaiti na angani ili kusaidia uchoraji wa ramani ya matumizi ya ardhi na ugunduzi wa mabadiliko bila lebo za mikono.

Kujizoeza mapema kuhusu picha za setilaiti na angani ili kusaidia uchoraji wa ramani ya matumizi ya ardhi na ugunduzi wa mabadiliko bila lebo za mikono Kwa kawaida Timu hupata matokeo bora zaidi zinapofafanua viwango vya ubora wa juu, kuweka njia ya kupanda kwa binadamu kwa matukio makali, na kufuatilia faida za tija na gharama za hitilafu kwa wakati.

Hatari & Walinzi

!

Haki za picha na idhini zinaweza kuwa hatari za kisheria ikiwa asili haiko wazi.

!

Utendaji wa muundo unaweza kutofautiana katika mwangaza, idadi ya watu na mazingira.

!

Chanya za uwongo zinaweza kutotambuliwa isipokuwa viwango vya uaminifu vifuatiliwe.

Ramani ya Utekelezaji

1

Bainisha vigezo vya kukubalika vya usahihi, kumbukumbu na gharama za makosa.

Bainisha vigezo vya kukubalika vya usahihi, kumbukumbu na gharama za makosa. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

2

Jaribu kwa kutumia data inayolingana na hali halisi ya uzalishaji.

Jaribu kwa kutumia data inayolingana na hali halisi ya uzalishaji. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

3

Ongeza ukaguzi wa kibinadamu kwa utabiri wa chini au utabiri wa athari kubwa.

Ongeza ukaguzi wa kibinadamu kwa utabiri wa chini au utabiri wa athari kubwa. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

4

Fuatilia mtindo wa kuteleza na uthibitishe upya baada ya mabadiliko ya kamera au mkusanyiko wa data.

Fuatilia mtindo wa kuteleza na uthibitishe upya baada ya mabadiliko ya kamera au mkusanyiko wa data. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

Endelea Kuchunguza