Mwongozo wa AI unaoonekana

Kupoteza Mtazamo na LPIPs

Kupoteza fahamu hupima jinsi picha mbili zinazofanana zinavyoonekana kwa wanadamu kwa kulinganisha vipengele vya kina vya mtandao wa neva badala ya saizi mbichi.

Muhtasari

Kupoteza fahamu hupima jinsi picha mbili zinazofanana zinavyoonekana kwa wanadamu kwa kulinganisha vipengele vya kina vya mtandao wa neva badala ya saizi mbichi. Ni muhimu kwa sababu ulinganisho wa pikseli kwa pikseli huadhibu kimakosa mabadiliko madogo na kutia ukungu maelezo, huku hasara ya kiakili huthawabisha matokeo makali na halisi.

Kupoteza Mtazamo na LPIPS ni mali ya mtiririko wa maono ya kompyuta ambayo hufasiri au kutoa midia ya kuona kwa uchanganuzi, utendakazi na ubunifu.

Dive ya kina

Hasara za kitamaduni kama vile L2 (maana ya hitilafu ya mraba) hulinganisha picha za pikseli-kwa-pixel, ili mabadiliko ya pikseli moja au umbile tofauti kidogo inaonekana kama hitilafu kubwa ingawa wanadamu hawatambui. Upotevu wa utambuzi badala yake huendesha picha zote mbili kupitia mtandao uliofundishwa (mara nyingi VGG) na kulinganisha kuwezesha kutoka kwa safu za kati. Kwa sababu vipengele hivyo husimba kingo, maumbo na sehemu za kitu badala ya thamani halisi za pikseli, hasara hiyo inalingana vyema na uamuzi wa binadamu, ikihimiza matokeo makali na ya uaminifu kisemantiki. LPIPS (Ulinganifu wa Kiraka cha Picha ya Kihisia Iliyojifunza), ilianzishwa na Zhang et al. mnamo 2018, inarasimisha hili: inatoa vipengele vya kina, kuvifanya kuwa vya kawaida, na kutumia uzani uliofunzwa uliosawazishwa dhidi ya maelfu ya hukumu za ufanano za binadamu, na kutoa alama moja ya umbali ambapo chini inamaanisha kuwa sawa kimawazo.

Ufahamu wa Kiufundi

LPIPS hupitisha picha zote mbili kupitia uti wa mgongo usiobadilika (VGG, AlexNet, au SqueezeNet), kitengo-hurekebisha uanzishaji wa kituo katika safu kadhaa, kisha huchukua tofauti ya mraba katika kila eneo la anga. Seti ndogo ya uzani uliojifunza kwa kila kituo hupima tofauti hizo kabla hazijakadiriwa kwa nafasi na kujumlishwa katika tabaka. Vipimo hivyo vilifunzwa kwenye mkusanyiko wa data wa BAPPS wa maamuzi ya chaguo-mbili-badala-ya kulazimishwa ya binadamu, kwa hivyo kipimo kinaonyesha kile ambacho watu huona haswa badala ya umbali wa kipengele ghafi.

Kusimamia Upotevu wa Mtazamo na LPIPs

Kupoteza fahamu hupima jinsi picha mbili zinazofanana zinavyoonekana kwa wanadamu kwa kulinganisha vipengele vya kina vya mtandao wa neva badala ya saizi mbichi. Ni muhimu kwa sababu ulinganisho wa pikseli kwa pikseli huadhibu kimakosa mabadiliko madogo na kutia ukungu maelezo, huku hasara ya kiakili huthawabisha matokeo makali na halisi. Kupoteza Mtazamo na LPIPS ni mali ya mtiririko wa maono ya kompyuta ambayo hufasiri au kutoa midia ya kuona kwa uchanganuzi, utendakazi na ubunifu. Ili kujenga uelewa wa kina, chukulia Upotevu wa Mitizamo na LPIPS kama muundo wa uendeshaji, sio kipengele kimoja: kufafanua matokeo yanayotarajiwa, kufafanua mawazo, na kutenganisha kile ambacho mfumo unaweza kufanya kwa uaminifu kutoka kwa kile ambacho bado kinahitaji uamuzi wa kitaalamu.

Katika mazoezi, timu dhabiti zinazotumia Usahihi wa Kupoteza Mtazamo na usahihi wa mizani wa LPIPS na hali halisi ya uendeshaji kama vile ubora wa data, tofauti ya mwanga na uthabiti wa lebo. Huandika vigezo dhahiri vya kufaulu, kujaribu dhidi ya data halisi na mtiririko wa kazi, na kurudia kulingana na mifumo ya kushindwa iliyoonekana badala ya ushindi wa mara moja wa benchmark. Hapa ndipo uelewa wa kinadharia unapogeuka kuwa uwezo wa kudumu katika bidhaa, sera na uendeshaji.

Visual AI inaweza kufanya ukaguzi, ugunduzi na kazi za kuweka lebo kiotomatiki kwa kiwango. Wakati huo huo, haki za picha na idhini zinaweza kuwa hatari za kisheria ikiwa asili haiko wazi. Mbinu thabiti zaidi ni kuchanganya kasi ya majaribio na nidhamu ya utawala: kuendesha majaribio, kunasa ushahidi, kuchapisha kumbukumbu za maamuzi, na kuendelea kusasisha ulinzi huku tabia ya kielelezo, matarajio ya watumiaji na mahitaji ya udhibiti yanapobadilika.

Athari za kimkakati

Visual AI inaweza kufanya ukaguzi, ugunduzi na kazi za kuweka lebo kiotomatiki kwa kiwango.

Visual AI inaweza kufanya ukaguzi, ugunduzi na kazi za kuweka lebo kiotomatiki kwa kiwango. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Timu bunifu zinaweza kuiga dhana kwa haraka zaidi na masahihisho machache ya mikono.

Timu bunifu zinaweza kuiga dhana kwa haraka zaidi na masahihisho machache ya mikono. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Uendeshaji unaweza kutumia ishara za picha na video ambazo hapo awali zilikuwa ngumu kuchakata.

Uendeshaji unaweza kutumia ishara za picha na video ambazo hapo awali zilikuwa ngumu kuchakata. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Mustakabali wa Upotevu wa Kihisia na LPIPs

Vipimo vya utambuzi vinahama kutoka kwa uti wa mgongo wa CNN kuelekea vipengele kutoka kwa miundo inayojisimamia na kubadilisha maono kama vile DINO na CLIP, ambayo hunasa semantiki bora zaidi. Tarajia muunganisho mkali zaidi na mafunzo ya modeli ya uenezaji na tathmini ya maandishi kwa picha, pamoja na alama za utambuzi zilizopangwa kwa uthabiti wa muda wa video. Watafiti pia wanachunguza sehemu zisizoeleweka za LPIPS: inaweza kudanganywa kwa uhasama na inahusiana hafifu na ubora kwa uaminifu wa juu sana, ikihamasisha metriki mpya zaidi zinazolingana na binadamu kama vile DISTS na mbinu za kuunganisha.

Utekelezaji wa Ulimwengu Halisi

Kufunza mitandao yenye azimio kuu (k.m., SRGAN) ili picha za hali ya juu zionekane kali na zenye muundo badala ya ukungu.

Kutathmini mbano wa picha na kodeki kwa kupata alama ya jinsi taswira iliyosimbuliwa ilivyo karibu na ya asili.

Uhamishaji wa mtindo unaoongoza, ambapo maudhui yanalinganishwa kupitia vipengele vya kina vya VGG badala ya pikseli halisi.

Kulinganisha GAN na jenereta za taswira kwa kuripoti umbali wa LPIPS kati ya picha zinazozalishwa na halisi.

Miundo ya Utekelezaji

Upotevu wa Mtazamo na LPIPS kwa vitendo

Kufunza mitandao yenye azimio kuu (k.m., SRGAN) ili picha za hali ya juu zionekane kali na zenye muundo badala ya ukungu.

Kufunza mitandao yenye azimio la juu zaidi (k.m., SRGAN) ili picha za hali ya juu zionekane kali na zenye muundo badala ya ukungu, Timu kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya ubora wa juu, kuweka njia ya kupanda juu ya matukio makali, na kufuatilia faida za tija na gharama za hitilafu kwa wakati.

Upotevu wa Mtazamo na LPIPS kwa vitendo

Kutathmini mbano wa picha na kodeki kwa kupata alama ya jinsi taswira iliyosimbuliwa ilivyo karibu na ya asili.

Kutathmini mbano wa picha na kodeki kwa kupata alama ya jinsi taswira iliyosimbuliwa ilivyo karibu na Timu asili kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya juu vya ubora mbele, kuweka njia ya kupanda juu ya matukio makali, na kufuatilia faida zote za tija na gharama za makosa kwa wakati.

Upotevu wa Mtazamo na LPIPS kwa vitendo

Uhamishaji wa mtindo unaoongoza, ambapo maudhui yanalinganishwa kupitia vipengele vya kina vya VGG badala ya pikseli halisi.

Uhamishaji wa mtindo unaoongoza, ambapo maudhui yanalinganishwa kupitia vipengele vya kina vya VGG badala ya pikseli halisi Kwa kawaida Timu hupata matokeo bora zaidi zinapofafanua viwango vya juu vya ubora mbele, kuweka njia ya kupanda juu ya matukio makali, na kufuatilia faida za tija na gharama za hitilafu kwa wakati.

Upotevu wa Mtazamo na LPIPS kwa vitendo

Kulinganisha GAN na jenereta za taswira kwa kuripoti umbali wa LPIPS kati ya picha zinazozalishwa na halisi.

Kulinganisha GAN na jenereta za picha za uenezaji kwa kuripoti umbali wa LPIPS kati ya picha zinazozalishwa na halisi Timu kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya ubora wa juu, kuweka njia ya kupanda kwa binadamu kwa matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.

Hatari & Walinzi

!

Haki za picha na idhini zinaweza kuwa hatari za kisheria ikiwa asili haiko wazi.

!

Utendaji wa muundo unaweza kutofautiana katika mwangaza, idadi ya watu na mazingira.

!

Chanya za uwongo zinaweza kutotambuliwa isipokuwa viwango vya uaminifu vifuatiliwe.

Ramani ya Utekelezaji

1

Bainisha vigezo vya kukubalika vya usahihi, kumbukumbu na gharama za makosa.

Bainisha vigezo vya kukubalika vya usahihi, kumbukumbu na gharama za makosa. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

2

Jaribu kwa kutumia data inayolingana na hali halisi ya uzalishaji.

Jaribu kwa kutumia data inayolingana na hali halisi ya uzalishaji. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

3

Ongeza ukaguzi wa kibinadamu kwa utabiri wa chini au utabiri wa athari kubwa.

Ongeza ukaguzi wa kibinadamu kwa utabiri wa chini au utabiri wa athari kubwa. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

4

Fuatilia mtindo wa kuteleza na uthibitishe upya baada ya mabadiliko ya kamera au mkusanyiko wa data.

Fuatilia mtindo wa kuteleza na uthibitishe upya baada ya mabadiliko ya kamera au mkusanyiko wa data. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

Endelea Kuchunguza