አጠቃላይ እይታ
የመልቲ-ኤጀንት ማጠናከሪያ ትምህርት (MARL) አካባቢን የሚጋሩ በርካታ የመማሪያ ወኪሎችን ያሠለጥናል፣ እያንዳንዱም ባህሪውን ሲያስተካክል ሌሎቹ ደግሞ ይላመዳሉ። በጣም አስፈላጊው ነገር ምክንያቱም አብዛኛዎቹ የገሃዱ ዓለም ችግሮች - ትራፊክ ፣ ገበያ ፣ የሮቦቶች ቡድን - ብዙ ውሳኔ ሰጪዎችን እንጂ አንድ አይደለም ።
የብዝሃ-ወኪል ማጠናከሪያ ትምህርት በዋና AI መሣሪያ ስብስብ ውስጥ ተቀምጧል። ሲረዱት ሌሎች AI ርዕሶች ለመገምገም እና ለማነጻጸር ቀላል ይሆናሉ።
ጥልቅ ዳይቭ
በነጠላ-ወኪል የማጠናከሪያ ትምህርት አንድ ወኪል በተወሰነ አካባቢ ውስጥ ሽልማቶችን ከፍ በማድረግ ፖሊሲን ይማራል። MARL ተጨማሪ ወኪሎችን ይጨምራል፣ እና ያ ሁሉንም ነገር ይለውጣል፡ ከእያንዳንዱ ወኪል እይታ፣ አካባቢው ቋሚ አይደለም ምክንያቱም ሌሎቹ ፖሊሲዎቻቸውን ስለሚቀይሩ ነው። ወኪሎች መተባበር ይችላሉ (የቡድን ሽልማትን ማጋራት፣ እንደ እግር ኳስ ተጫዋች ሮቦቶች)፣ ተወዳዳሪ (ዜሮ ድምር፣ እንደ ቁማር ወይም ማሳደድ-ማሳደድ) ወይም ድብልቅ። ተመራማሪዎች ነጠላ ወኪል የሆነውን የማርኮቭ ውሳኔ ሂደትን የሚያጠቃልሉ እንደ ማርኮቭ ጨዋታዎች (ስቶቻስቲክ ጨዋታዎች) ያሉ ፎርማሊዝምን ይጠቀማሉ። ታዋቂ ውጤቶች የ DeepMind's AlphaStar Grandmaster በStarCraft II መድረስ እና OpenAI አምስት የተሸነፉ ፕሮፌሽናል ዶታ 2 ቡድኖችን ያካትታሉ፣ ሁለቱም በራስ በመጫወት እርስ በእርስ በሰለጠኑ ወኪሎች ብዛት ላይ ይተማመናሉ።
ቴክኒካዊ ግንዛቤ
ዋናው ፈተና ቋሚ አለመሆን ነው፡ እያንዳንዱ ወኪል ፖሊሲውን ሲያሻሽል፣ሌሎቹ የሚንቀሳቀስ ኢላማ ይገጥማቸዋል፣ስለዚህ የዋህ የሆነ ገለልተኛ ትምህርት መሰብሰብ ይሳነዋል። ታዋቂ ጥገና ያልተማከለ አፈፃፀም (CTDE) ያለው የተማከለ ስልጠና ሲሆን እንደ MADDPG እና QMIX ባሉ ስልተ ቀመሮች ጥቅም ላይ ይውላል። በስልጠና ወቅት፣ ተቺው የተረጋጋ ቅልመትን ለማስላት የሁሉንም ተወካዮች ምልከታ እና እርምጃዎች ይመለከታል፣ ነገር ግን በሚሰማሩበት ጊዜ እያንዳንዱ ወኪል የሚሰራው የራሱን የአካባቢ ምልከታዎችን ብቻ ነው - የተቀናጀ ትምህርት ከተግባራዊ እና ከገለልተኛ አሰራር ጋር በማጣመር።
የብዝሃ-ወኪል ማጠናከሪያ ትምህርትን መቆጣጠር
የመልቲ-ኤጀንት ማጠናከሪያ ትምህርት (MARL) አካባቢን የሚጋሩ በርካታ የመማሪያ ወኪሎችን ያሠለጥናል፣ እያንዳንዱም ባህሪውን ሲያስተካክል ሌሎቹ ደግሞ ይላመዳሉ። በጣም አስፈላጊው ነገር ምክንያቱም አብዛኛዎቹ የገሃዱ ዓለም ችግሮች - ትራፊክ ፣ ገበያ ፣ የሮቦቶች ቡድን - ብዙ ውሳኔ ሰጪዎችን እንጂ አንድ አይደለም ። የብዝሃ-ወኪል ማጠናከሪያ ትምህርት በዋና AI መሣሪያ ስብስብ ውስጥ ተቀምጧል። ሲረዱት ሌሎች AI ርዕሶች ለመገምገም እና ለማነጻጸር ቀላል ይሆናሉ። ጥልቅ ግንዛቤን ለመገንባት፣የመልቲ-ወኪል ማጠናከሪያ ትምህርትን እንደ ኦፕሬሽን ሞዴል ይያዙ፣ አንድ ባህሪ ሳይሆን፡ የሚፈለጉትን ውጤቶች ይግለጹ፣ ግምቶችን ያብራሩ፣ እና ስርዓቱ አሁንም የባለሙያዎችን ፍርድ ከሚያስፈልገው ነገር ለይ።
በተግባር፣ የብዝሃ-ወኪል ማጠናከሪያ ትምህርትን የሚጠቀሙ ጠንካራ ቡድኖች መጀመሪያ ጠንካራ ሃሳባዊ ሞዴሎችን ይገነባሉ፣ ከዚያም እነዚያን ሞዴሎች ወደ እውነተኛ የምርት ገደቦች ያርቁ። ግልጽ የስኬት መስፈርቶችን ይመዘግባሉ፣ በተጨባጭ መረጃ እና የስራ ፍሰቶች ላይ ይፈትሻሉ፣ እና የአንድ ጊዜ ቤንችማርክ ከማሸነፍ ይልቅ በተስተዋሉ የውድቀት ቅጦች ላይ ተመስርተው ይደግማሉ። ይህ የንድፈ ሃሳባዊ ግንዛቤ በምርት፣ ፖሊሲ እና ኦፕሬሽኖች ላይ ወደ ዘላቂ አቅም የሚቀየርበት ነው።
ግልጽ ቴክኒካዊ የይገባኛል ጥያቄዎችን ከገበያ ቋንቋ እንዲለዩ ያግዝዎታል። በተመሳሳይ ጊዜ፣ የተለያዩ ቡድኖች ተመሳሳይ ቃል በተለያየ መንገድ ሊጠቀሙ ይችላሉ፣ ስለዚህ ወሰንን ቀደም ብለው ይግለጹ። በጣም ጠንካራው አካሄድ የሙከራ ፍጥነትን ከአስተዳደር ዲሲፕሊን ጋር ማጣመር ነው፡ አብራሪዎችን ማስኬድ፣ ማስረጃን መያዝ፣ የውሳኔ ምዝግብ ማስታወሻዎችን ማተም እና የሞዴል ባህሪ፣ የተጠቃሚ የሚጠበቁ እና የቁጥጥር መስፈርቶች ሲዳብሩ ጥበቃዎችን ያለማቋረጥ ማዘመን ነው።
ስልታዊ ተጽእኖ
ግልጽ ቴክኒካዊ የይገባኛል ጥያቄዎችን ከገበያ ቋንቋ እንዲለዩ ያግዝዎታል።
ግልጽ ቴክኒካዊ የይገባኛል ጥያቄዎችን ከገበያ ቋንቋ እንዲለዩ ያግዝዎታል። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።
ገንዘብን ወይም ጊዜን ከማጥፋትዎ በፊት የተሻሉ የትግበራ ጥያቄዎችን መጠየቅ ይችላሉ።
ገንዘብን ወይም ጊዜን ከማጥፋትዎ በፊት የተሻሉ የትግበራ ጥያቄዎችን መጠየቅ ይችላሉ። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።
የጋራ ግንዛቤ ያላቸው ቡድኖች የተሻለ ምርት፣ ፖሊሲ እና የመማር ውሳኔዎችን ያደርጋሉ።
የጋራ ግንዛቤ ያላቸው ቡድኖች የተሻለ ምርት፣ ፖሊሲ እና የመማር ውሳኔዎችን ያደርጋሉ። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።
የእውነተኛ-ዓለም አተገባበር
የመጋዘን ሮቦቶች መርከቦችን በማስተባበር ፓኬጆችን ሳይጋጩ እና መተላለፊያዎች ውስጥ ሳይገድቡ እንዲሄዱ ማድረግ
እያንዳንዱ መስቀለኛ መንገድ የከተማ አቀፍ መጨናነቅን ለመቀነስ የሚማር ወኪል የሆነበት የትራፊክ-ሲግናል ቁጥጥር
የስልጠና ጨዋታ AI እንደ OpenAI Five (Dota 2) እና AlphaStar (StarCraft II) በብዙ ወኪሎች መካከል በራስ በመጫወት
በስማርት ኤሌክትሪክ ፍርግርግ ውስጥ በተከፋፈሉ ባትሪዎች እና ቤቶች መካከል የጨረታ እና የፍላጎት ምላሽን ማስተዳደር
የትግበራ ቅጦች
የባለብዙ ወኪል ማጠናከሪያ ትምህርት በተግባር
የመጋዘን ሮቦቶች መርከቦችን በማስተባበር ፓኬጆችን ሳይጋጩ እና መተላለፊያዎች ውስጥ ሳይገድቡ እንዲሄዱ ማድረግ።
የመጋዘን ሮቦቶች መርከቦችን በማስተባበር ፓኬጆችን ሳይጋጩ እና መተላለፊያዎች ውስጥ ሳይገድቡ እንዲሄዱ ማድረግ ቡድኖች አብዛኛውን ጊዜ የጥራት ደረጃዎችን ፊት ለፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ፣ ለዳር ጉዳዮች የሰው ልጅ መስፋፋት መንገድን ሲይዙ እና ሁለቱንም የምርታማነት ግኝቶችን እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።
የባለብዙ ወኪል ማጠናከሪያ ትምህርት በተግባር
እያንዳንዱ መስቀለኛ መንገድ የከተማ አቀፍ መጨናነቅን ለመቀነስ የሚማር ወኪል የሆነበት የትራፊክ-ሲግናል ቁጥጥር።
እያንዳንዱ መስቀለኛ መንገድ ከተማ አቀፍ መጨናነቅን ለመቀነስ የሚማር ወኪል የሆነበት የትራፊክ-ሲግናል ቁጥጥር ቡድኖች ብዙውን ጊዜ የተሻለ ውጤት የሚያገኙበት ከፊት ለፊት የጥራት ደረጃዎችን ሲወስኑ፣ ለዳር ጉዳዮች የሰው ልጅ እድገት መንገድን ሲያደርጉ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት መከታተል ነው።
የባለብዙ ወኪል ማጠናከሪያ ትምህርት በተግባር
የስልጠና ጨዋታ AI እንደ OpenAI Five (Dota 2) እና AlphaStar (StarCraft II) በብዙ ወኪሎች መካከል በራስ-ጨዋታ።
የስልጠና ጨዋታ AI እንደ OpenAI Five (Dota 2) እና AlphaStar (StarCraft II) በራስ አጫውት በብዙ ወኪሎች መካከል ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ፊት ለፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ፣ ለጫፍ ጉዳዮች የሰው ልጅ መሻሻል መንገድን ይጠብቃሉ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።
የባለብዙ ወኪል ማጠናከሪያ ትምህርት በተግባር
በስማርት ኤሌክትሪክ ፍርግርግ ውስጥ በተከፋፈሉ ባትሪዎች እና ቤቶች መካከል የጨረታ እና የፍላጎት ምላሽን ማስተዳደር።
በተከፋፈሉ ባትሪዎች እና ቤቶች መካከል ጨረታዎችን እና የፍላጎት ምላሽን ማስተዳደር በስማርት ኤሌክትሪክ ፍርግርግ ውስጥ ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ሲወስኑ የተሻለ ውጤት ያገኛሉ ፣ ለጫፍ ጉዳዮች የሰውን እድገት መንገድ ሲይዙ እና ሁለቱንም የምርታማነት ግኝቶችን እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።
አደጋዎች እና የጥበቃ መንገዶች
የተለያዩ ቡድኖች ተመሳሳይ ቃል በተለያየ መንገድ ሊጠቀሙ ይችላሉ፣ ስለዚህ ወሰንን ቀደም ብለው ይግለጹ።
የገሃዱ ዓለም አፈጻጸም ያልተስተካከለ ሆኖ ሳለ ማመሳከሪያዎች ጠንካራ ሊመስሉ ይችላሉ።
የውሂብ ጥራት እና የግምገማ እቅዶችን ችላ ማለት ብዙውን ጊዜ ደካማ ውጤቶችን ይፈጥራል.
የትግበራ ፍኖተ ካርታ
የሚፈልጉትን ውጤት በግልፅ ቋንቋ ትርጉም ይጀምሩ።
የሚፈልጉትን ውጤት በግልፅ ቋንቋ ትርጉም ይጀምሩ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።
ከመሞከርዎ በፊት አንድ የስኬት መለኪያ እና አንድ የውድቀት ሁኔታ ይምረጡ።
ከመሞከርዎ በፊት አንድ የስኬት መለኪያ እና አንድ የውድቀት ሁኔታ ይምረጡ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።
አንድ ትንሽ አብራሪ በተወካይ ውሂብ ያሂዱ እንጂ የተጣራ ማሳያ ስብስብ አይደለም።
አንድ ትንሽ አብራሪ በተወካይ ውሂብ ያሂዱ እንጂ የተጣራ ማሳያ ስብስብ አይደለም። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።
የብዝሃ-ወኪል ማጠናከሪያ ትምህርት የሚረዳበት እና ቀላል ዘዴዎች የተሻሉበት ሰነድ።
የብዝሃ-ወኪል ማጠናከሪያ ትምህርት የሚረዳበት እና ቀላል ዘዴዎች የተሻሉበት ሰነድ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።