ቪዥዋል AI መመሪያ

ራዕይ-ቋንቋ-የድርጊት ሞዴሎች ለሮቦቲክስ

ቪዥን-ቋንቋ-ድርጊት (VLA) ሞዴሎች የካሜራ ምስሎችን እና የጽሑፍ መመሪያን የሚወስዱ እና የሮቦት ሞተር ትዕዛዞችን በቀጥታ የሚያወጡ ትልልቅ የነርቭ አውታሮች ናቸው።

አጠቃላይ እይታ

ቪዥን-ቋንቋ-ድርጊት (VLA) ሞዴሎች የካሜራ ምስሎችን እና የጽሑፍ መመሪያን የሚወስዱ እና የሮቦት ሞተር ትዕዛዞችን በቀጥታ የሚያወጡ ትልልቅ የነርቭ አውታሮች ናቸው። እነሱ አስፈላጊ ናቸው ምክንያቱም ሰፊውን የጋራ የመሠረት ሞዴሎችን ወደ አካላዊ ማሽኖች በማምጣት አንድ ሞዴል ሮቦትን እያንዳንዱን ባህሪ በእጅ ከመፃፍ ይልቅ በብዙ ስራዎች ላይ እንዲቆጣጠር ያስችለዋል።

ራዕይ-ቋንቋ-የድርጊት ሞዴሎች ለሮቦቲክስ የኮምፒዩተር-ራዕይ የስራ ፍሰቶች ለመተንተን፣ ለኦፕሬሽኖች እና ለፈጠራ ምስላዊ ሚዲያን የሚተረጉሙ ወይም የሚያመነጩ ናቸው።

ጥልቅ ዳይቭ

የVLA ሞዴል ሶስት ዥረቶችን ያዋህዳል፡ ራዕይ (የካሜራ ፍሬሞች)፣ ቋንቋ (እንደ 'ጽዋውን በመታጠቢያ ገንዳ ውስጥ ማስገባት' ያለ ግብ) እና እርምጃ (የጋራ ማዕዘኖች፣ ግሪፐር ክፍት/ቅርብ፣ ወይም የመጨረሻ ውጤት ፍጥነቶች)። Google DeepMind's RT-2 ትልቅ ምልክት ነበር፡ በድር ምስሎች እና ፅሁፍ ላይ የሰለጠነ የራዕይ-ቋንቋ ሞዴል ወስዷል፣ከዚያም በሮቦት ዱካዎች ላይ በደንብ አስተካክለው 'ይህ ምን ፍሬ ነው?' የሚል መልስ የሚሰጥ ተመሳሳይ አውታረ መረብ ነው። እንደ ጽሑፍ ምልክት የተደረገባቸው ድርጊቶችንም ያስወጣል። እንደ OpenVLA (7B መለኪያዎች) እና ፊዚካል ኢንተለጀንስ ፒ-0 ያሉ ሞዴሎችን ተከትለዋል። በወሳኝ መልኩ፣ እነዚህ ሞዴሎች 'ድንገተኛ' ማስተላለፍን ያሳያሉ፡ የድረ-ገጽ እውቀት (ብራንድ ሎጎን ማወቅ፣ 'ትንሹን' መረዳት) ወደ ማጭበርበር ይሸጋገራል፣ ስለዚህ ሮቦቱ በሮቦት ስልጠና ወቅት አይቷቸው የማታውቁትን ነገሮች እና መመሪያዎችን ጠቅለል አድርጎ ያሳያል።

ቴክኒካዊ ግንዛቤ

አንድ ትራንስፎርመር ልክ እንደ ቃላቶች በራስ-ሰር መተንበይ እንዲችል ብዙ VLAዎች ቀጣይነት ያላቸውን ድርጊቶች ወደ ቶከኖች ይለያሉ። RT-2 እያንዳንዱን የእርምጃ ልኬት ከ256 ቢን ወደ አንዱ ያዘጋጃል እና እንደ የጽሑፍ ሕብረቁምፊ ያስወጣቸዋል። እንደ ፒ-0 ያሉ አዳዲስ ዲዛይኖች ስርጭትን ወይም ፍሰትን የሚዛመድ 'የድርጊት ኤክስፐርት' ጭንቅላትን ወደ በረዶ የእይታ-ቋንቋ የጀርባ አጥንት ያያይዙታል፣ ይህም በነጠላ ርምጃዎች ምትክ ለስላሳ ከፍተኛ ድግግሞሽ (ለምሳሌ 50 ኸርዝ) በመፍጠር ቅልጥፍናን ያሻሽላል።

ለሮቦቲክስ ራዕይ-ቋንቋ-ድርጊት ሞዴሎችን ማስተር

ቪዥን-ቋንቋ-ድርጊት (VLA) ሞዴሎች የካሜራ ምስሎችን እና የጽሑፍ መመሪያን የሚወስዱ እና የሮቦት ሞተር ትዕዛዞችን በቀጥታ የሚያወጡ ትልልቅ የነርቭ አውታሮች ናቸው። እነሱ አስፈላጊ ናቸው ምክንያቱም ሰፊውን የጋራ የመሠረት ሞዴሎችን ወደ አካላዊ ማሽኖች በማምጣት አንድ ሞዴል ሮቦትን እያንዳንዱን ባህሪ በእጅ ከመፃፍ ይልቅ በብዙ ስራዎች ላይ እንዲቆጣጠር ያስችለዋል። ራዕይ-ቋንቋ-የድርጊት ሞዴሎች ለሮቦቲክስ የኮምፒዩተር-ራዕይ የስራ ፍሰቶች ለመተንተን፣ ለኦፕሬሽኖች እና ለፈጠራ ምስላዊ ሚዲያን የሚተረጉሙ ወይም የሚያመነጩ ናቸው። ጥልቅ ግንዛቤን ለመገንባት የራዕይ-ቋንቋ-ድርጊት ሞዴሎችን ለሮቦቲክስ እንደ ኦፕሬሽን ሞዴል ያዙ እንጂ አንድ ባህሪ አይደለም፡ የተፈለገውን ውጤት ይግለጹ፣ ግምቶችን ያብራሩ እና ስርዓቱ ምን ሊሰራ እንደሚችል አሁንም የባለሙያዎችን ፍርድ ከሚያስፈልገው ለይ።

በተግባር፣ ራዕይ-ቋንቋ-ድርጊት ሞዴሎችን ለሮቦቲክስ የሚጠቀሙ ጠንካራ ቡድኖች እንደ የውሂብ ጥራት፣ የመብራት ልዩነት እና የመለያ ወጥነት ካሉ ተግባራዊ እውነታዎች ጋር ትክክለኛነትን ያመጣሉ። ግልጽ የስኬት መስፈርቶችን ይመዘግባሉ፣ በተጨባጭ መረጃ እና የስራ ፍሰቶች ላይ ይፈትሻሉ፣ እና የአንድ ጊዜ ቤንችማርክ ከማሸነፍ ይልቅ በተስተዋሉ የውድቀት ቅጦች ላይ ተመስርተው ይደግማሉ። ይህ የንድፈ ሃሳባዊ ግንዛቤ በምርት፣ ፖሊሲ እና ኦፕሬሽኖች ላይ ወደ ዘላቂ አቅም የሚቀየርበት ነው።

ቪዥዋል AI የመመርመሪያ፣ የማወቅ እና የመለያ ስራዎችን በሚዛን መጠን በራስ ሰር ሊያደርግ ይችላል። በተመሳሳይ ጊዜ፣ የምስል መብቶች እና ፍቃድ ማረጋገጫው ግልጽ ካልሆነ ህጋዊ አደጋዎች ሊሆኑ ይችላሉ። በጣም ጠንካራው አካሄድ የሙከራ ፍጥነትን ከአስተዳደር ዲሲፕሊን ጋር ማጣመር ነው፡ አብራሪዎችን ማስኬድ፣ ማስረጃን መያዝ፣ የውሳኔ ምዝግብ ማስታወሻዎችን ማተም እና የሞዴል ባህሪ፣ የተጠቃሚ የሚጠበቁ እና የቁጥጥር መስፈርቶች ሲዳብሩ ጥበቃዎችን ያለማቋረጥ ማዘመን ነው።

ስልታዊ ተጽእኖ

ቪዥዋል AI የመመርመሪያ፣ የማወቅ እና የመለያ ስራዎችን በሚዛን መጠን በራስ ሰር ሊያደርግ ይችላል።

ቪዥዋል AI የመመርመሪያ፣ የማወቅ እና የመለያ ስራዎችን በሚዛን መጠን በራስ ሰር ሊያደርግ ይችላል። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

የፈጠራ ቡድኖች በጥቂት የእጅ ክለሳዎች ጽንሰ-ሀሳቦችን በፍጥነት መተየብ ይችላሉ።

የፈጠራ ቡድኖች በጥቂት የእጅ ክለሳዎች ጽንሰ-ሀሳቦችን በፍጥነት መተየብ ይችላሉ። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

ክዋኔዎች ከዚህ ቀደም ለማስኬድ አስቸጋሪ የነበሩትን የምስል እና የቪዲዮ ምልክቶችን መጠቀም ይችላሉ።

ክዋኔዎች ከዚህ ቀደም ለማስኬድ አስቸጋሪ የነበሩትን የምስል እና የቪዲዮ ምልክቶችን መጠቀም ይችላሉ። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

የወደፊት የራዕይ-ቋንቋ-ድርጊት ሞዴሎች ለሮቦቲክስ

ትላልቅ የተሻገሩ ዳታ ስብስቦችን ይጠብቁ (የOpen X-Embodiment ጥረት ቀድሞውኑ ከ22+ የሮቦት አይነቶች መረጃን ያጠራቅማል) ስለዚህ አንድ ሞዴል ክንዶችን፣ ሰዉኦይድ እና የሞባይል መሰረትን ይነዳል። ምርምሩ ለትክክለኛ ጊዜ ቁጥጥር፣ ለበለጸጉ 3D እና የሚዳሰሱ ግብአቶች እና አምሳያው ከመተግበሩ በፊት 'ያሰበበትን' የማመዛዘን ሰንሰለቶችን ወደ ፈጣን ግንዛቤ ይገፋል። ግቡ ከረዳት ጋር እንደመነጋገር በበረራ ላይ እርማት በቀላል እንግሊዝኛ መጠየቅ የምትችለው ነጠላ አጠቃላይ ፖሊሲ ነው።

የእውነተኛ-ዓለም አተገባበር

RT-2 የ Google ኩሽና ሮቦትን በመቆጣጠር ሙዙን ወደ ቁጥር 3 ለማንቀሳቀስ ከድር ጽሁፍ የተማረውን አሃዝ በመጠቀም እንጂ የሮቦት ማሳያዎችን አይደለም

OpenVLA፣ ክፍት ምንጭ 7B ሞዴል፣ በዝቅተኛ ዋጋ ክንዶች ላይ የጠረጴዛ መረጣ እና ቦታን ለማሄድ በቤተ ሙከራ የተስተካከለ

የአካላዊ ኢንተለጀንስ ፒ -0 ታጣፊ የልብስ ማጠቢያ እና ጠረጴዛን ማጽዳት ከአንድ መመሪያ ብዙ ንዑስ ክህሎትን በማሰር

አንድ የመጋዘን ክንድ 'በጣም ደካማ የሆነውን ነገር ምረጥ' እና የትኛውን ነገር በምስላዊ መልኩ እንደሚገምት ተናገረ

የትግበራ ቅጦች

ራዕይ-ቋንቋ-የድርጊት ሞዴሎች ለሮቦቲክስ በተግባር

RT-2 የ Google ኩሽና ሮቦትን በመቆጣጠር 'ሙዙን ወደ ቁጥር 3' ለማንቀሳቀስ ከድር ጽሁፍ የተማረውን አሃዝ እንጂ ሮቦት ማሳያ አይደለም።

RT-2 የ Google ኩሽና ሮቦትን በመቆጣጠር ሙዙን ወደ ቁጥር 3 ለማዘዋወር ከድር ጽሁፍ የተማረውን አሃዝ በመጠቀም እንጂ ሮቦት ማሳያ አይደለም ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ፊት ለፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ, ለጫፍ ጉዳዮች የሰው ልጅ እድገትን መንገድ ያስቀምጡ, እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ.

ራዕይ-ቋንቋ-የድርጊት ሞዴሎች ለሮቦቲክስ በተግባር

OpenVLA፣ ክፍት ምንጭ 7B ሞዴል፣ በጥሩ ሁኔታ የተስተካከለ በላብ የተስተካከለ የጠረጴዛ ፒክ እና ቦታ በዝቅተኛ ዋጋ እጆች።

OpenVLA፣ ክፍት ምንጭ 7B ሞዴል፣ በቤተ ሙከራ የተስተካከለ የጠረጴዛ መረጣ እና ቦታ በዝቅተኛ ዋጋ እጆች ላይ ለማሄድ ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ፊት ለፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ፣ ለዳር ጉዳዮች የሰው ልጅ እድገት መንገድን ይጠብቃሉ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።

ራዕይ-ቋንቋ-የድርጊት ሞዴሎች ለሮቦቲክስ በተግባር

ፊዚካል ኢንተለጀንስ ፒ-0 የልብስ ማጠቢያ ማጠፍ እና ጠረጴዛን ማጽዳት ከአንድ መመሪያ ብዙ ንዑስ ክህሎትን በሰንሰለት በማሰር።

የፊዚካል ኢንተለጀንስ ፒ-0 ታጣፊ የልብስ ማጠቢያ እና ጠረጴዛን ማጽዳት ከአንድ መመሪያ ብዙ ንዑስ ክህሎትን በሰንሰለት በማሰር ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ፊት ለፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ፣ ለዳር ጉዳዮች የሰው ልጅ እድገት መንገድን ሲይዙ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።

ራዕይ-ቋንቋ-የድርጊት ሞዴሎች ለሮቦቲክስ በተግባር

አንድ የመጋዘን ክንድ 'በጣም ደካማ የሆነውን ነገር ምረጥ' እና የትኛውን ነገር በምስላዊ መልኩ እንደሚገምት ተናገረ።

አንድ የመጋዘን ክንድ 'በጣም ደካማ የሆነውን ነገር ምረጥ' እና ከእይታ ገጽታው የትኛው ነገር እንደሆነ በመገመት ቡድኖቹ ብዙውን ጊዜ የጥራት ደረጃዎችን ከፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ፣ ለዳር ጉዳዮች የሰውን እድገት መንገድ ሲይዙ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።

አደጋዎች እና የጥበቃ መንገዶች

!

የምስል መብቶች እና ፈቃድ ግልጽ ካልሆነ ህጋዊ አደጋዎች ሊሆኑ ይችላሉ።

!

የሞዴል አፈጻጸም በብርሃን፣ በስነ-ሕዝብ እና በአካባቢው ሊለያይ ይችላል።

!

የመተማመን ገደቦች ካልተቆጣጠሩ የውሸት አወንታዊ ነገሮች ላይታዩ ይችላሉ።

የትግበራ ፍኖተ ካርታ

1

ለትክክለኛነት፣ ለማስታወስ እና ለስህተት ወጪዎች የመቀበያ መስፈርቶችን ይግለጹ።

ለትክክለኛነት፣ ለማስታወስ እና ለስህተት ወጪዎች የመቀበያ መስፈርቶችን ይግለጹ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

2

ከእውነተኛ የምርት ሁኔታዎች ጋር በሚዛመድ ውሂብ ይሞክሩ።

ከእውነተኛ የምርት ሁኔታዎች ጋር በሚዛመድ ውሂብ ይሞክሩ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

3

ለዝቅተኛ እምነት ወይም ከፍተኛ ተጽዕኖ ትንበያ የሰው ግምገማን ያክሉ።

ለዝቅተኛ እምነት ወይም ከፍተኛ ተጽዕኖ ትንበያ የሰው ግምገማን ያክሉ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

4

ከካሜራ ወይም የውሂብ ስብስብ ለውጦች በኋላ የሞዴሉን ተንሸራታች ይከታተሉ እና እንደገና ያረጋግጡ።

ከካሜራ ወይም የውሂብ ስብስብ ለውጦች በኋላ የሞዴሉን ተንሸራታች ይከታተሉ እና እንደገና ያረጋግጡ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

ማሰስዎን ይቀጥሉ