GUIDE IA visuel

Xool-Làkk-Jëf Royuwaayi Robotik

Modèlu Vision-Language-Action (VLA) ay reso neuronal yu mag lañu yuy jël nataali kamera boole ci ay tegtal yuñ bind ba noppi di génne ci saasi ndigalu motëru robot bi.

Résumé

Modèlu Vision-Language-Action (VLA) ay reso neuronal yu mag lañu yuy jël nataali kamera boole ci ay tegtal yuñ bind ba noppi di génne ci saasi ndigalu motëru robot bi. Dañu am solo ndax dañuy indi xam-xam bu yaatu ci modelu fondaasioŋ yi ci masin physique yi, bàyyi benn model mu yoree robot ci liggéey yu bari ci plaasu kode loxo bu nekk ci doxalin bu nekk.

Royuwaayi Làkk-Jëf ngir Robotik bokk na ci liggéeyu gis-gis ordinatër biy tekki wala defar ay mejaa yuñy xool ngir jàngat, liggéey ak sos lu bees.

Plongeur bu xóot

Benn xeetu VLA dafay boole ñatti mbir: gis-gis (kadre kamera), làkk (mébet bu melni 'def koppu bi ci evier'), ak jëf (angle yu boole, ubbiku/tëjug gripper, wala gaawaayu efektër bu mujj). Google DeepMind's RT-2 nekkoon na lu am solo: jël na xeetu làkku gis-gis buñ tàggat ci nataali web ak mbind, ba noppi ñu boole ko ci yoon wi robo yi di jaar, suko defee benn reso bi mëna tontu 'ban meññeef la lii?' itam génne ay jëf yuñ màndargaale ni mbind. Royuwaay yu ubbeeku yu melni OpenVLA (parametre 7B) ak pi-0 bu Xarañteg Yaram topp ci. Ci anam wu gëna am solo, xeetu yii dañuy wane toxal 'emergence': xam-xam web (xam logo màrk, xam 'ki gëna ndaw') dafay yóbbu ci manipulation, suko defee robot bi dafay generalise ci mbir ak tegtal yu mu musul gis ci tàggat robot.

Gis-gis xarala

VLA yu bari dañuy tàqale jëf yu wéy yi ci ay token suko defee transformateur bi mëna leen wax luy waaja xew, ni kàddu yi. RT-2 dafay boole dimension jëf bu nekk ci benn ci 256 bin yi ba noppi bàyyi leen ñu nekk chaîne text. Design yu bees yu melni pi-0 dañuy takk boppu 'ekspert ci jëf' bu méngoo ak diffusion wala flow ci yaxu ndigg bu lakk wi ñuy gis, di defar ay piyeesu jëf yu fréquence yu kawe (lu melni, 50 Hz) ci barabu benn jéego bu wuute, gëna baaxal dexterity.

Xam-xam ci anamu gis-gis-làkk-jëf ngir robotik

Modèlu Vision-Language-Action (VLA) ay reso neuronal yu mag lañu yuy jël nataali kamera boole ci ay tegtal yuñ bind ba noppi di génne ci saasi ndigalu motëru robot bi. Dañu am solo ndax dañuy indi xam-xam bu yaatu ci modelu fondaasioŋ yi ci masin physique yi, bàyyi benn model mu yoree robot ci liggéey yu bari ci plaasu kode loxo bu nekk ci doxalin bu nekk. Royuwaayi Làkk-Jëf ngir Robotik bokk na ci liggéeyu gis-gis ordinatër biy tekki wala defar ay mejaa yuñy xool ngir jàngat, liggéey ak sos lu bees. Ngir tabax xam-xam bu xóot, jàppal Vision-Language-Action Models for Robotics ni xeetu liggéey, du benn man-man: fësal njariñ yi nga bëgg, leeral xalaat yi, ak tàqale li sistem bi mëna def ci anam wu wóor ak li ba leegi soxla àtteb kàngam.

Ci jëf, ekip yu am doole yiy jëfandikoo Vision-Language-Action Models ngir Robotics dañuy boole njub ak dëggantaan ci liggéey bi lu melni kalite done, wuute ci leeraay, ak dëppoo ci etiketu. Dañuy bind kritër yu leer ngir am ndam, natt leen ci done yu dëggu ak def liggéey, ba noppi ñu baamtu ci anamu ñàkka mëna seetlu, du ci benn yoon benchmark wins. Mooy barab bi xam-xam theorie bi di soppiku nekk kàttan buy yàgg ci produit yi, ci politik yi ak ci liggéey yi.

Visual IA mën na otomatise saytu, gis ak etiketu liggéey ci eskaal. Ci jamano jooju, yelleefi nataal ak nangu mën na nekk risku yoon sudee fimu bawoo leerul. Xeetu jëf bi gëna dëgër mooy boole gaawaayu jàngat ak disipline nguur: doxal pilote, jàpp firnde, siiwal dogal yi, ak wéy di yeesal kaaraange gi ci anam wi ñuy doxalee, li jëfandikukat bi di xaar, ak sàrti sàrt yi di jëm kanam.

njeextalu pexe

Visual IA mën na otomatise saytu, gis ak etiketu liggéey ci eskaal.

Visual IA mën na otomatise saytu, gis ak etiketu liggéey ci eskaal. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.

Ekipu kreatif yi mën nañu defar konsept yu gëna gaaw te duñu def lu bari ci loxo.

Ekipu kreatif yi mën nañu defar konsept yu gëna gaaw te duñu def lu bari ci loxo. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.

Liggéeyukaay yi mën nañu jëfandikoo siñaal nataal wala wideo yu jafewoon lool ci liggéey.

Liggéeyukaay yi mën nañu jëfandikoo siñaal nataal wala wideo yu jafewoon lool ci liggéey. Ci jëfandikoo yu am kalite bu kawe, loolu dañu koy tekki ci sàrti liggéey yuñ mëna natt, ay peggu boroom, ak ay xew-xewu xoolaat yu bari suko defee ekip yi mëna yokk wóolu seen bopp ci barabu yokk lu jaxasoo.

Ëlëgu gis-gis-làkk-jëf xeetu robotik

Xaarandi ay done yu gëna mag (Open X-Embodiment dafay boole ay done yu bawoo ci 22+ xeeti robot) suko defee benn model di dawal ay loxo, ay humanoid ak ay base mobile. Gëstu dafay puus ci inference bu gëna gaaw ngir doxal ci jamono dëgg, 3D bu gëna riis ak dugal tactile, ak chaine yu xalaat fu model bi di 'xalaat' balaa muy jëfandikoo. Luñu bëgga mooy benn politik generalist boo mëna laaj ci Àngle bu leer, ak seet ci saasi, lu mel ni waxtaan ak assistant.

Doxal ci àdduna dëgg

RT-2 dafay yoree ab robo waañ ngir 'toxal banaan bi ci nimero 3' di jëfandikoo ay sifar yu mu jàngee ci mbindu web bi, du ay demo robot

OpenVLA, xeetu 7B bu ubbeeku, lab yi defar ko bu baax ngir doxal tànneef ak-place ci kaw loxo yu yomb njëg

Xarañteg yaram pi-0 mooy fóotu yéere ak fomp taabal ci boole ay xam-xam yu bari ci benn njàngale

Benn loxo depot dafa wax 'tannal mbir mi gëna yomba dagg' nga xool ban mbir moo ci melokaanam

Modèlu jëfandikoo

Xool-Làkk-Jëf Royuwaayi Robotik ci jëf

RT-2 dafay yoree ab robot waañ ngir 'toxal banaan bi ci nimero 3' di jëfandikoo ay lim yu mu jàngee ci mbindu web bi, te baña jëfandikoo ay demo robot.

RT-2 di yoree benn robot waañ ngir 'toxal banaan bi ci nimero 3' di jëfandikoo ay lim yu mu jàngee ci mbindu web bi, du ci demo robot yi.

Xool-Làkk-Jëf Royuwaayi Robotik ci jëf

OpenVLA, xeetu 7B bu ubbeeku, lab yi defar ko bu baax ngir doxal tànneef ak-place ci kaw loxo yu yomb njëg.

OpenVLA, benn xeetu 7B bu ubbeeku, labs yi defar bu baax ngir doxal tabletop pick-and-place ci loxo yu yomb. Ekip yi dañuy faral di am njariñ yu gëna baax suñu leeralee threshold yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit ak njëgu njuumte ci diir bi.

Xool-Làkk-Jëf Royuwaayi Robotik ci jëf

Xarañteg yaram pi-0 dafay plie fóotu yéere ak fomp taabal ci boole ay xam-xam yu bari ci benn njàngale.

Xarañteg yaram pi-0 dafay fóotu yéere ak dindi benn taabal ci boole ay sub-skills yu bari ci benn njàngale. Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee threshold yu baax ci kanam, tëye yoonu escalation nit ngir jafe-jafe yi, ba noppi topp njariñu produit yi ak njëgu njuumte yi ci diir bu gàtt.

Xool-Làkk-Jëf Royuwaayi Robotik ci jëf

Benn loxo depo bi dafa wax 'tannal mbir mi gëna yomba dagg' nga xool ban mbir moo ci melokaanam.

Benn loxo depot neena 'tannal mbir mi gëna yomba dagg' te nga xam ban mbir la ci melokaanam. Ekip yi dañuy faral di am njariñ yu gëna baax suñu joxee ay pursàntaasu kalite ci kanam, tëye yoonu eskalaasioŋ nit ngir jafe-jafe yi, ba noppi topp njariñu liggéey bi ak njëgu njuumte yi ci diir bu gàtt.

Risk yi ak balustrade yi

!

Yelleefi nataal ak nangu mën na nekk risku yoon sudee fi ñu bawoo leerul.

!

Performance model bi mën na wuute ci leeraay bi, demographie bi ak environmaa bi.

!

Njuumteg positive yi mën nañu dem te kenn duko seetlu fileek xool wuñu buntu wóolu sa bopp.

Roadmap ngir samp gi

1

Mandargal kritërium nangug njub, woowaat ak njëgu njuumte.

Mandargal kritërium nangug njub, woowaat ak njëgu njuumte. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.

2

Saytu ak done yu méngoo ak anam yi ñuy liggéeyee dëgg.

Saytu ak done yu méngoo ak anam yi ñuy liggéeyee dëgg. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.

3

Yokk jàngat nit ngir xam fu wóorul dara wala am njeexital yu rëy.

Yokk jàngat nit ngir xam fu wóorul dara wala am njeexital yu rëy. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.

4

Toppal model drift bi nga baaxal ko ginaaw bi kamera bi wala done yi soppeekoo.

Toppal model drift bi nga baaxal ko ginaaw bi kamera bi wala done yi soppeekoo. Japp jéego bu nekk ni buntu firnde: sudee mattul kritër yi, noppali génne gi, tëj bërëb bi, ba noppi nga yaatal jëfandikoo gi.

Weyal di banneexu