Mwongozo wa AI unaoonekana

Vielelezo vya Vitendo vya Lugha-Maono kwa Roboti

Miundo ya Vision-Language-Action (VLA) ni mitandao mikubwa ya neural inayochukua picha za kamera pamoja na maagizo yaliyoandikwa na kutoa amri za injini za roboti moja kwa moja.

Muhtasari

Vielelezo vya Vitendo vya Lugha-Maono kwa Roboti ni mali ya mtiririko wa maono ya kompyuta ambayo hutafsiri au kutoa midia ya kuona kwa uchanganuzi, utendakazi na ubunifu.

Dive ya kina

Muundo wa VLA huunganisha mitiririko mitatu: maono (fremu za kamera), lugha (lengo kama 'kuweka kikombe kwenye sinki'), na kitendo (pembe za pamoja, shika wazi/funga, au kasi ya athari ya mwisho). Google RT-2 ya DeepMind ilikuwa ya kihistoria: ilichukua kielelezo cha lugha ya maono kilichofunzwa kwenye picha za wavuti na maandishi, kisha kuisanifisha kwenye trajectories za roboti ili mtandao uleule ambao unaweza kujibu 'hili ni tunda gani?' pia hutoa vitendo vilivyowekwa alama kama maandishi. Fungua mifano kama OpenVLA (vigezo 7B) na Physical Intelligence's pi-0 ikifuatwa. Muhimu zaidi, miundo hii inaonyesha uhamishaji 'unaoibuka': maarifa ya wavuti (kutambua nembo ya chapa, kuelewa 'ndogo') hubeba upotoshaji, kwa hivyo roboti hufanya jumla kwa vitu na maagizo ambayo haijawahi kuona wakati wa mafunzo ya roboti.

Ufahamu wa Kiufundi

VLA nyingi hutofautisha vitendo vinavyoendelea kuwa ishara ili kibadilishaji kiweze kutabiri kiotomatiki, kama vile maneno. RT-2 hupanga kila kipimo cha kitendo hadi mojawapo ya mapipa 256 na kuyatoa kama mfuatano wa maandishi. Miundo mipya zaidi kama vile pi-0 huambatanisha kichwa cha 'mtaalamu wa vitendo' kinacholingana na mtiririko au utiririko kwenye uti wa mgongo uliogandishwa wa lugha ya maono, na kutoa sehemu laini za masafa ya juu (k.m., 50 Hz) badala ya hatua moja mahususi, kuboresha ustadi.

Kubobea Miundo ya Vitendo ya Maono-Lugha ya Roboti

Miundo ya Vision-Language-Action (VLA) ni mitandao mikubwa ya neural inayochukua picha za kamera pamoja na maagizo yaliyoandikwa na kutoa amri za injini za roboti moja kwa moja. Ni muhimu kwa sababu huleta maana pana ya mifano ya msingi kwa mashine halisi, kuruhusu muundo mmoja kudhibiti roboti katika kazi nyingi badala ya kusimba kwa kila tabia. Vielelezo vya Vitendo vya Lugha-Maono kwa Roboti ni mali ya mtiririko wa maono ya kompyuta ambayo hutafsiri au kutoa midia ya kuona kwa uchanganuzi, utendakazi na ubunifu. Ili kujenga uelewaji wa kina, chukulia Vielelezo vya Vitendo vya Lugha-Maono kwa Roboti kama modeli ya uendeshaji, si kipengele kimoja: kufafanua matokeo yanayotarajiwa, kufafanua mawazo, na kutenganisha kile ambacho mfumo unaweza kufanya kwa uhakika na kile ambacho bado kinahitaji uamuzi wa kitaalamu.

Katika mazoezi, timu dhabiti zinazotumia Vielelezo vya Vitendo vya Lugha-Vision kwa usahihi wa kusawazisha Roboti na hali halisi ya uendeshaji kama vile ubora wa data, tofauti ya mwanga na uthabiti wa lebo. Huandika vigezo dhahiri vya kufaulu, kujaribu dhidi ya data halisi na mtiririko wa kazi, na kurudia kulingana na mifumo ya kushindwa iliyoonekana badala ya ushindi wa mara moja wa benchmark. Hapa ndipo uelewa wa kinadharia unapogeuka kuwa uwezo wa kudumu katika bidhaa, sera na uendeshaji.

Visual AI inaweza kufanya ukaguzi, ugunduzi na kazi za kuweka lebo kiotomatiki kwa kiwango. Wakati huo huo, haki za picha na idhini zinaweza kuwa hatari za kisheria ikiwa asili haiko wazi. Mbinu thabiti zaidi ni kuchanganya kasi ya majaribio na nidhamu ya utawala: kuendesha majaribio, kunasa ushahidi, kuchapisha kumbukumbu za maamuzi, na kuendelea kusasisha ulinzi huku tabia ya kielelezo, matarajio ya watumiaji na mahitaji ya udhibiti yanapobadilika.

Athari za kimkakati

Visual AI inaweza kufanya ukaguzi, ugunduzi na kazi za kuweka lebo kiotomatiki kwa kiwango.

Visual AI inaweza kufanya ukaguzi, ugunduzi na kazi za kuweka lebo kiotomatiki kwa kiwango. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Timu bunifu zinaweza kuiga dhana kwa haraka zaidi na masahihisho machache ya mikono.

Timu bunifu zinaweza kuiga dhana kwa haraka zaidi na masahihisho machache ya mikono. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Uendeshaji unaweza kutumia ishara za picha na video ambazo hapo awali zilikuwa ngumu kuchakata.

Uendeshaji unaweza kutumia ishara za picha na video ambazo hapo awali zilikuwa ngumu kuchakata. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.

Mustakabali wa Vielelezo vya Maono-Lugha-Vitendo kwa Roboti

Tarajia seti kubwa zaidi za embodiment (juhudi za Open X-Embodiment tayari hukusanya data kutoka kwa aina 22+ za roboti) ili muundo mmoja utumie silaha, humanoids, na besi za simu. Utafiti unasukuma kuelekea makisio ya haraka zaidi kwa udhibiti wa wakati halisi, 3D tajiri zaidi na pembejeo za kugusa, na minyororo ya hoja ambapo mtindo 'hufikiri' kabla ya kutenda. Lengo ni sera moja ya jumla unayoweza kuuliza kwa Kiingereza cha kawaida, na masahihisho ya popote ulipo, kama vile kupiga gumzo na msaidizi.

Utekelezaji wa Ulimwengu Halisi

RT-2 inayodhibiti Google roboti ya jikoni 'kusogeza ndizi hadi nambari 3' kwa kutumia tarakimu ilizojifunza kutoka kwa maandishi ya wavuti, si onyesho la roboti.

OpenVLA, modeli ya chanzo huria ya 7B, iliyosanifiwa vyema na maabara ili kuendesha pick-and-place ya meza kwenye silaha za bei ya chini.

Nguo za kukunja za Physical Intelligence pi-0 na kusafisha meza kwa kuunganisha ujuzi mdogo kutoka kwa maagizo moja.

Mkono wa ghala uliiambia 'chagua bidhaa dhaifu zaidi' na kuashiria ni kitu gani ambacho kinatokana na mwonekano wake.

Miundo ya Utekelezaji

Vielelezo vya Vision-Lugha-Vitendo vya Roboti katika mazoezi

RT-2 inayodhibiti Google roboti ya jikoni 'kusogeza ndizi hadi nambari 3' kwa kutumia tarakimu ilizojifunza kutoka kwa maandishi ya wavuti, wala si maonyesho ya roboti.

RT-2 inayodhibiti Google roboti ya jikoni 'kusogeza ndizi hadi nambari 3' kwa kutumia tarakimu ilizojifunza kutoka kwa maandishi ya wavuti, si onyesho la roboti Kwa kawaida timu hupata matokeo bora zaidi zinapofafanua viwango vya ubora wa juu, kuweka njia ya kupanda juu ya hali ya juu ya binadamu, na kufuatilia faida zote za tija na gharama za makosa kwa wakati.

Vielelezo vya Vision-Lugha-Vitendo vya Roboti katika mazoezi

OpenVLA, modeli ya chanzo huria ya 7B, iliyoboreshwa na maabara ili kuendesha pick-and-place kwenye vifaa vya bei nafuu.

OpenVLA, modeli ya chanzo huria ya 7B, iliyosanifiwa vyema na maabara ili kuendesha pick-and-place kwenye silaha za bei ya chini Timu kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya juu vya ubora mbele, kuweka njia ya kupanda kwa binadamu kwa matukio makali, na kufuatilia faida zote za uzalishaji na gharama za makosa kwa wakati.

Vielelezo vya Vision-Lugha-Vitendo vya Roboti katika mazoezi

Nguo za kukunja za Physical Intelligence pi-0 na kusafisha meza kwa kuunganisha ujuzi mdogo kutoka kwa maagizo moja.

Nguo za kukunja za Physical Intelligence pi-0 na kusafisha jedwali kwa kuunganisha ujuzi mdogo mdogo kutoka kwa maagizo moja Timu kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya ubora mbele, kuweka njia ya kupanda kwa binadamu kwa matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.

Vielelezo vya Vision-Lugha-Vitendo vya Roboti katika mazoezi

Mkono wa ghala uliiambia 'chagua bidhaa dhaifu zaidi' na kukisia ni kitu gani ambacho kinatokana na mwonekano wake.

Mkono wa ghala uliiambia 'chagua kipengee dhaifu zaidi' na kukisia ni kitu gani ambacho kinatokana na mwonekano wake wa kuona Timu kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya ubora mbele, kuweka njia ya kupanda kwa binadamu kwa matukio makali, na kufuatilia faida zote za tija na gharama za makosa kwa wakati.

Hatari & Walinzi

Haki za picha na idhini zinaweza kuwa hatari za kisheria ikiwa asili haiko wazi.

Utendaji wa muundo unaweza kutofautiana katika mwangaza, idadi ya watu na mazingira.

Chanya za uwongo zinaweza kutotambuliwa isipokuwa viwango vya uaminifu vifuatiliwe.

Ramani ya Utekelezaji

Bainisha vigezo vya kukubalika vya usahihi, kumbukumbu na gharama za makosa.

Bainisha vigezo vya kukubalika vya usahihi, kumbukumbu na gharama za makosa. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

Jaribu kwa kutumia data inayolingana na hali halisi ya uzalishaji.

Jaribu kwa kutumia data inayolingana na hali halisi ya uzalishaji. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

Ongeza ukaguzi wa kibinadamu kwa utabiri wa chini au utabiri wa athari kubwa.

Ongeza ukaguzi wa kibinadamu kwa utabiri wa chini au utabiri wa athari kubwa. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

Fuatilia mtindo wa kuteleza na uthibitishe upya baada ya mabadiliko ya kamera au mkusanyiko wa data.

Fuatilia mtindo wa kuteleza na uthibitishe upya baada ya mabadiliko ya kamera au mkusanyiko wa data. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.

Endelea Kuchunguza

Maono ya Kompyuta

Kuelewa mifumo ya msingi inayowezesha AI ya kuona.

Soma Mwongozo

Kizazi cha Picha cha AI

Chunguza mtiririko wa kazi za uundaji na ubadilishanaji wa miundo.

Soma Mwongozo