Akopọ
Awọn awoṣe Iran-Language-Action (VLA) jẹ awọn nẹtiwọọki nkankikan nla ti o mu ni awọn aworan kamẹra pẹlu itọnisọna kikọ ati awọn pipaṣẹ ọkọ ayọkẹlẹ robot jade taara. Wọn ṣe pataki nitori wọn mu oye ti o wọpọ ti awọn awoṣe ipilẹ si awọn ẹrọ ti ara, jẹ ki awoṣe kan ṣakoso robot kan kọja ọpọlọpọ awọn iṣẹ-ṣiṣe dipo ifaminsi ihuwasi kọọkan.
Iran-Ede-Awọn awoṣe Iṣe fun Awọn Robotik jẹ ti awọn ṣiṣan iṣẹ-iran kọmputa ti o tumọ tabi ṣe agbejade media wiwo fun itupalẹ, awọn iṣẹ ṣiṣe, ati ẹda.
Jin Dive
Awoṣe VLA kan dapọ awọn ṣiṣan mẹta: iran (awọn fireemu kamẹra), ede ( ibi-afẹde kan bi 'fi ago sinu iho'), ati iṣe (awọn igun apapọ, gripper ṣiṣi / sunmọ, tabi awọn iyara ipa-ipari). Google DeepMind's RT-2 jẹ ami-ilẹ: o mu awoṣe ede-iran ti ikẹkọ lori awọn aworan wẹẹbu ati ọrọ, lẹhinna ṣajọ-daradara-aifwy rẹ lori awọn itọpa robot nitorina nẹtiwọki kanna ti o le dahun 'eso kini eyi?' tun njade awọn iṣe tokenized bi ọrọ. Ṣii awọn awoṣe bii OpenVLA (awọn paramita 7B) ati pi-0 oye ti ara ti o tẹle. Ni pataki, awọn awoṣe wọnyi ṣe afihan gbigbe 'pajawiri': imọ wẹẹbu (ti idanimọ ami iyasọtọ kan, agbọye 'eyiti o kere julọ') gbejade sinu ifọwọyi, nitorinaa robot gbogbogbo si awọn nkan ati awọn ilana ti ko rii lakoko ikẹkọ roboti.
Imọ-imọ-ẹrọ
Ọpọlọpọ awọn VLA ṣe iyasọtọ awọn iṣe ti nlọ lọwọ sinu awọn ami-ami nitorinaa oluyipada kan le sọ asọtẹlẹ wọn ni aifọwọyi, gẹgẹ bi awọn ọrọ. Awọn maapu RT-2 ni iwọn igbese kọọkan si ọkan ninu awọn apoti 256 ati gbejade wọn bi okun ọrọ. Awọn aṣa tuntun bii pi-0 so kaakiri tabi ṣiṣan-ibaramu 'iwé iṣe' ori si ẹhin ẹhin iran iran ti o tutu, ti n ṣe agbejade awọn chunks iṣẹ igbohunsafẹfẹ giga-giga (fun apẹẹrẹ, 50 Hz) dipo awọn igbesẹ ọtọtọ ẹyọkan, imudara dexterity.
Titunto si Awọn awoṣe Iṣe-Ede-Iriran fun Awọn Robotiki
Awọn awoṣe Iran-Language-Action (VLA) jẹ awọn nẹtiwọọki nkankikan nla ti o mu ni awọn aworan kamẹra pẹlu itọnisọna kikọ ati awọn pipaṣẹ ọkọ ayọkẹlẹ robot jade taara. Wọn ṣe pataki nitori wọn mu oye ti o wọpọ ti awọn awoṣe ipilẹ si awọn ẹrọ ti ara, jẹ ki awoṣe kan ṣakoso robot kan kọja ọpọlọpọ awọn iṣẹ-ṣiṣe dipo ifaminsi ihuwasi kọọkan. Iran-Ede-Awọn awoṣe Iṣe fun Awọn Robotik jẹ ti awọn ṣiṣan iṣẹ-iran kọmputa ti o tumọ tabi ṣe agbejade media wiwo fun itupalẹ, awọn iṣẹ ṣiṣe, ati ẹda. Lati kọ oye ti o jinlẹ, tọju Awọn awoṣe Iṣẹ-Iran-Ede-Iṣẹ fun Awọn ẹrọ Robotics gẹgẹbi awoṣe iṣẹ, kii ṣe ẹya kan: ṣalaye awọn abajade ti o fẹ, ṣe alaye awọn arosọ, ati sọtọ ohun ti eto le ṣe ni igbẹkẹle lati ohun ti o tun nilo idajọ amoye.
Ni iṣe, awọn ẹgbẹ ti o lagbara ni lilo Awọn awoṣe Iṣe-Ede-Iran fun išedede iwọntunwọnsi Robotics pẹlu awọn otitọ ṣiṣe bii didara data, iyatọ ina, ati isamisi aitasera. Wọn ṣe akọsilẹ awọn ibeere aṣeyọri ti o fojuhan, idanwo lodi si data ojulowo ati ṣiṣan iṣẹ, ati atunbere ti o da lori awọn ilana ikuna ti a ṣakiyesi dipo awọn bori ala-akoko kan. Eyi ni ibiti oye imọ-jinlẹ yipada si agbara ti o tọ kọja ọja, eto imulo, ati awọn iṣẹ ṣiṣe.
Visual AI le ṣe adaṣe adaṣe, wiwa, ati awọn iṣẹ ṣiṣe taagi ni iwọn. Ni akoko kanna, Awọn ẹtọ aworan ati ifọkansi le di awọn eewu labẹ ofin ti o ba jẹ afihan. Ọna resilient julọ julọ ni lati darapọ iyara idanwo pẹlu ibawi ijọba: ṣiṣe awọn awakọ awakọ, mu ẹri mu, ṣe atẹjade awọn iwe ipinnu, ati imudojuiwọn awọn aabo nigbagbogbo bi ihuwasi awoṣe, awọn ireti olumulo, ati awọn ibeere ilana ti dagbasoke.
Ipa Ilana
Visual AI le ṣe adaṣe adaṣe, wiwa, ati awọn iṣẹ ṣiṣe taagi ni iwọn.
Visual AI le ṣe adaṣe adaṣe, wiwa, ati awọn iṣẹ ṣiṣe taagi ni iwọn. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.
Awọn ẹgbẹ ẹda le ṣe apẹrẹ awọn imọran yiyara pẹlu awọn atunyẹwo afọwọṣe diẹ.
Awọn ẹgbẹ ẹda le ṣe apẹrẹ awọn imọran yiyara pẹlu awọn atunyẹwo afọwọṣe diẹ. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.
Awọn iṣẹ ṣiṣe le lo aworan ati awọn ifihan agbara fidio ti o nira tẹlẹ lati ṣiṣẹ.
Awọn iṣẹ ṣiṣe le lo aworan ati awọn ifihan agbara fidio ti o nira tẹlẹ lati ṣiṣẹ. Ni awọn imuṣiṣẹ ti o ni agbara giga, eyi ni a tumọ si awọn ofin iṣiṣẹ wiwọn, awọn aala nini, ati awọn ilana atunyẹwo loorekoore ki awọn ẹgbẹ le ṣe iwọn igbẹkẹle dipo iwọn aibikita.
Real-World imuse
RT-2 ti n ṣakoso roboti idana Google lati 'gbe ogede lọ si nọmba 3' ni lilo awọn nọmba ti o kọ lati ọrọ wẹẹbu, kii ṣe awọn demos robot.
OpenVLA, awoṣe 7B orisun-ìmọ, ti o dara-aifwy nipasẹ awọn ile-iṣẹ lati ṣiṣe yiyan tabili tabili lori awọn ọwọ idiyele kekere
Pi-0 ifọṣọ kika oye ti ara ati imukuro tabili kan nipa didin ọpọlọpọ awọn ọgbọn-ipin lati itọnisọna kan
Apa ile-itaja kan sọ fun 'mu ohun ẹlẹgẹ julọ' ati inferring kini nkan ti o jẹ lati irisi wiwo rẹ
Awọn Ilana imuse
Awọn awoṣe Iṣe-Ede-Iriran fun Awọn Robotik ni iṣe
RT-2 n ṣakoso roboti idana Google lati 'gbe ogede lọ si nọmba 3' ni lilo awọn nọmba ti o kọ lati ọrọ wẹẹbu, kii ṣe awọn demos robot.
RT-2 ti n ṣakoso Google robot idana lati 'gbe ogede si nọmba 3' ni lilo awọn nọmba ti o kọ lati ọrọ wẹẹbu, kii ṣe awọn demos robot Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa awọn anfani iṣelọpọ mejeeji ati awọn idiyele aṣiṣe ni akoko pupọ.
Awọn awoṣe Iṣe-Ede-Iriran fun Awọn Robotik ni iṣe
ṢiiVLA, awoṣe 7B orisun-ìmọ, ti o dara-aifwy nipasẹ awọn laabu lati ṣiṣe yiyan tabili tabili lori awọn ọwọ idiyele kekere.
OpenVLA, awoṣe 7B orisun-ìmọ, ti o dara-aifwy nipasẹ awọn ile-iṣọ lati ṣiṣe gbigbe tabili tabili lori awọn apa iye owo kekere Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa mejeeji awọn anfani iṣelọpọ ati awọn idiyele aṣiṣe lori akoko.
Awọn awoṣe Iṣe-Ede-Iriran fun Awọn Robotik ni iṣe
Ifọṣọ kika pi-0 oye ti ara ati mimu tabili kuro nipa didin ọpọlọpọ awọn ọgbọn-ipin lati itọnisọna ẹyọkan.
Pi-0 ifọṣọ kika oye ti ara ati imukuro tabili kan nipa sisọ ọpọlọpọ awọn ọgbọn-apakan lati inu ẹkọ kan Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna igbega eniyan fun awọn ọran eti, ati tọpa mejeeji awọn anfani iṣelọpọ ati awọn idiyele aṣiṣe ni akoko pupọ.
Awọn awoṣe Iṣe-Ede-Iriran fun Awọn Robotik ni iṣe
Apa ile-itaja kan sọ fun 'mu ohun ẹlẹgẹ julọ' ati inferring kini nkan ti o jẹ lati irisi wiwo rẹ.
Apa ile itaja kan sọ fun 'mu ohun ẹlẹgẹ julọ' ati pe ohun ti o jẹ lati irisi wiwo rẹ Awọn ẹgbẹ nigbagbogbo gba awọn abajade to dara julọ nigbati wọn ṣalaye awọn ilodi didara ni iwaju, tọju ọna imudara eniyan fun awọn ọran eti, ati tọpa mejeeji awọn anfani iṣelọpọ ati awọn idiyele aṣiṣe lori akoko.
Awọn ewu & Awọn ọna iṣọ
Awọn ẹtọ aworan ati igbanilaaye le di awọn eewu labẹ ofin ti o ba jẹ afihan.
Iṣe awoṣe le yatọ kọja ina, awọn ẹda eniyan, ati awọn agbegbe.
Awọn idaniloju eke le ma ṣe akiyesi ayafi ti a ba ṣe abojuto awọn ala igbẹkẹle.
Ilana Ilana imuse
Ṣetumo awọn ibeere gbigba fun pipe, iranti, ati awọn idiyele aṣiṣe.
Ṣetumo awọn ibeere gbigba fun pipe, iranti, ati awọn idiyele aṣiṣe. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.
Ṣe idanwo pẹlu data ti o baamu awọn ipo iṣelọpọ gidi.
Ṣe idanwo pẹlu data ti o baamu awọn ipo iṣelọpọ gidi. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.
Ṣafikun atunyẹwo eniyan fun igbẹkẹle kekere tabi awọn asọtẹlẹ ipa-giga.
Ṣafikun atunyẹwo eniyan fun igbẹkẹle kekere tabi awọn asọtẹlẹ ipa-giga. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.
Tọpinpin awoṣe ki o ṣe tunṣe lẹhin kamẹra tabi awọn ayipada datasetto.
Tọpinpin awoṣe ki o ṣe tunṣe lẹhin kamẹra tabi awọn ayipada datasetto. Ṣe itọju igbesẹ kọọkan bi ẹnu-ọna ẹri: ti awọn ibeere ko ba ni ibamu, daduro yiyọ kuro, pa aafo naa, ati lẹhinna faagun lilo.