Muhtasari
Mafunzo ya Kuimarisha Ajenti nyingi (MARL) hufunza mawakala kadhaa wa kujifunza wanaoshiriki mazingira, kila mmoja akirekebisha tabia yake huku wengine wakibadilika pia. Ni muhimu kwa sababu matatizo mengi ya ulimwengu halisi - trafiki, masoko, timu za roboti - huhusisha watoa maamuzi wengi, sio mmoja.
Mafunzo ya Uimarishaji wa Wakala-Nyingi yapo kwenye zana kuu ya zana za AI. Unapoielewa, mada zingine za AI huwa rahisi kutathmini na kulinganisha.
Dive ya kina
Katika ujifunzaji wa uimarishaji wa wakala mmoja, wakala mmoja hujifunza sera kwa kuongeza zawadi katika mazingira yasiyobadilika. MARL inaongeza mawakala zaidi, na hiyo inabadilisha kila kitu: kutoka kwa maoni ya kila wakala, mazingira sio tuli kwa sababu wengine wanaendelea kubadilisha sera zao. Mawakala wanaweza kuwa na ushirikiano (kushiriki zawadi ya timu, kama vile roboti zinazocheza soka), washindani (sufuri-jumla, kama poker au kukwepa kufuatilia), au mchanganyiko. Watafiti hutumia taratibu kama vile michezo ya Markov (michezo ya kistaarabu) ambayo hujumlisha Mchakato wa Uamuzi wa wakala mmoja wa Markov. Matokeo maarufu ni pamoja na AlphaStar ya DeepMind kufikia Grandmaster katika StarCraft II na OpenAI Timu tano za Dota 2 za kitaalamu zinazoshinda, zote zinategemea idadi ya mawakala waliofunzwa dhidi ya kila mmoja wao kwa kucheza binafsi.
Ufahamu wa Kiufundi
Changamoto kuu ni kutokuwa na msimamo: kila wakala anaposasisha sera yake, wengine hukabiliana na shabaha inayosonga, kwa hivyo kujifunza kwa kujitegemea kwa ujinga kunaweza kushindwa kuungana. Marekebisho maarufu ni mafunzo ya kati na utekelezaji uliogatuliwa (CTDE), unaotumiwa na algoriti kama MADDPG na QMIX. Wakati wa mafunzo, mkosoaji huona uchunguzi na vitendo vya mawakala wote ili kukokotoa viwango thabiti, lakini wakati wa kusambaza kila wakala hutenda kwa kutumia uchunguzi wake wa ndani pekee - kuchanganya ujifunzaji ulioratibiwa na uendeshaji wa vitendo, unaojitegemea.
Kujua Kujifunza kwa Uimarishaji wa Wakala Wengi
Mafunzo ya Kuimarisha Ajenti nyingi (MARL) hufunza mawakala kadhaa wa kujifunza wanaoshiriki mazingira, kila mmoja akirekebisha tabia yake huku wengine wakibadilika pia. Ni muhimu kwa sababu matatizo mengi ya ulimwengu halisi - trafiki, masoko, timu za roboti - huhusisha watoa maamuzi wengi, sio mmoja. Mafunzo ya Uimarishaji wa Wakala-Nyingi yapo kwenye zana kuu ya zana za AI. Unapoielewa, mada zingine za AI huwa rahisi kutathmini na kulinganisha. Ili kujenga uelewa wa kina, chukulia Kujifunza kwa Uimarishaji wa Wakala Wengi kama kielelezo cha uendeshaji, si kipengele kimoja: kufafanua matokeo yanayotarajiwa, kufafanua mawazo, na kutenganisha kile ambacho mfumo unaweza kufanya kwa uhakika na kile ambacho bado kinahitaji uamuzi wa kitaalamu.
Katika mazoezi, timu dhabiti zinazotumia Mafunzo ya Uimarishaji wa Wakala-Nyingi huunda miundo dhabiti kwanza, kisha kuchora miundo hiyo kwa vikwazo halisi vya uzalishaji. Huandika vigezo dhahiri vya kufaulu, kujaribu dhidi ya data halisi na mtiririko wa kazi, na kurudia kulingana na mifumo ya kushindwa iliyoonekana badala ya ushindi wa mara moja wa benchmark. Hapa ndipo uelewa wa kinadharia unapogeuka kuwa uwezo wa kudumu katika bidhaa, sera na uendeshaji.
Inakusaidia kutenganisha madai ya wazi ya kiufundi kutoka kwa lugha ya uuzaji. Wakati huo huo, timu tofauti zinaweza kutumia neno moja tofauti, kwa hivyo fafanua upeo mapema. Mbinu thabiti zaidi ni kuchanganya kasi ya majaribio na nidhamu ya utawala: kuendesha majaribio, kunasa ushahidi, kuchapisha kumbukumbu za maamuzi, na kuendelea kusasisha ulinzi huku tabia ya kielelezo, matarajio ya watumiaji na mahitaji ya udhibiti yanapobadilika.
Athari za kimkakati
Inakusaidia kutenganisha madai ya wazi ya kiufundi kutoka kwa lugha ya uuzaji.
Inakusaidia kutenganisha madai ya wazi ya kiufundi kutoka kwa lugha ya uuzaji. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.
Unaweza kuuliza maswali ya utekelezaji bora kabla ya kutumia pesa au wakati.
Unaweza kuuliza maswali ya utekelezaji bora kabla ya kutumia pesa au wakati. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.
Timu zenye uelewa wa pamoja hufanya maamuzi bora ya bidhaa, sera na mafunzo.
Timu zenye uelewa wa pamoja hufanya maamuzi bora ya bidhaa, sera na mafunzo. Katika utumaji wa ubora wa juu, hii inatafsiriwa katika sheria zinazoweza kupimika za uendeshaji, mipaka ya umiliki, na desturi za ukaguzi wa mara kwa mara ili timu ziweze kuongeza imani badala ya kuongeza utata.
Utekelezaji wa Ulimwengu Halisi
Kuratibu meli za roboti za ghala ili zipitishe vifurushi bila kugongana au kukwama kwenye njia.
Udhibiti wa ishara za trafiki ambapo kila makutano ni wakala anayejifunza kupunguza msongamano wa jiji zima
Mchezo wa mafunzo wa AI kama OpenAI Tano (Dota 2) na AlphaStar (StarCraft II) kupitia kujicheza kati ya mawakala wengi
Kusimamia zabuni na mwitikio wa mahitaji kati ya betri na nyumba zilizosambazwa katika gridi ya umeme mahiri
Miundo ya Utekelezaji
Kujifunza kwa Uimarishaji wa Wakala Mbalimbali kwa vitendo
Kuratibu kundi la roboti za ghala ili zipitishe vifurushi bila kugongana au kukwama kwenye njia.
Kuratibu kundi la roboti za ghala ili zipitishe vifurushi bila kugongana au kukwama kwenye njia kwa kawaida Timu hupata matokeo bora zaidi zinapofafanua viwango vya juu vya ubora mbele, kuweka njia ya kupanda kwa binadamu kwa matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.
Kujifunza kwa Uimarishaji wa Wakala Mbalimbali kwa vitendo
Udhibiti wa ishara za trafiki ambapo kila makutano ni wakala anayejifunza kupunguza msongamano wa jiji zima.
Udhibiti wa mawimbi ya trafiki ambapo kila makutano ni wakala anayejifunza kupunguza msongamano wa jiji zima Timu kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya ubora mbele, kuweka njia ya kupanda kwa binadamu kwa matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.
Kujifunza kwa Uimarishaji wa Wakala Mbalimbali kwa vitendo
Mchezo wa mafunzo wa AI kama OpenAI Tano (Dota 2) na AlphaStar (StarCraft II) kupitia uchezaji wa kibinafsi kati ya mawakala wengi.
Mchezo wa mafunzo wa AI kama vile OpenAI Tano (Dota 2) na AlphaStar (StarCraft II) kupitia uchezaji wa kibinafsi miongoni mwa mawakala wengi kwa kawaida Timu hupata matokeo bora zaidi zinapofafanua viwango vya juu vya ubora, kuweka njia ya kuongezeka kwa binadamu kwa matukio makali, na kufuatilia faida za tija na gharama za makosa kwa wakati.
Kujifunza kwa Uimarishaji wa Wakala Mbalimbali kwa vitendo
Kusimamia zabuni na mwitikio wa mahitaji kati ya betri na nyumba zilizosambazwa katika gridi ya umeme mahiri.
Kudhibiti zabuni na mwitikio wa mahitaji kati ya betri na nyumba zinazosambazwa katika gridi ya umeme mahiri Timu kwa kawaida hupata matokeo bora zaidi zinapofafanua viwango vya ubora wa juu, kuweka njia ya kupanda kwa binadamu kwa visa vikali, na kufuatilia faida za tija na gharama za makosa kwa wakati.
Hatari & Walinzi
Timu tofauti zinaweza kutumia neno moja tofauti, kwa hivyo fafanua upeo mapema.
Vigezo vinaweza kuonekana kuwa na nguvu ilhali utendakazi wa ulimwengu halisi haufanani.
Kupuuza ubora wa data na mipango ya tathmini mara nyingi huleta matokeo tete.
Ramani ya Utekelezaji
Anza na ufafanuzi wa lugha rahisi wa matokeo unayohitaji.
Anza na ufafanuzi wa lugha rahisi wa matokeo unayohitaji. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.
Chagua kipimo kimoja cha mafanikio na hali moja ya kutofaulu kabla ya kujaribu.
Chagua kipimo kimoja cha mafanikio na hali moja ya kutofaulu kabla ya kujaribu. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.
Tekeleza majaribio madogo yenye data wakilishi, si seti ya onyesho iliyoboreshwa.
Tekeleza majaribio madogo yenye data wakilishi, si seti ya onyesho iliyoboreshwa. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.
Hati ambapo Mafunzo ya Uimarishaji wa Wakala Wengi husaidia na ambapo mbinu rahisi ni bora zaidi.
Hati ambapo Mafunzo ya Uimarishaji wa Wakala Wengi husaidia na ambapo mbinu rahisi ni bora zaidi. Chukulia kila hatua kama lango la ushahidi: ikiwa vigezo havitatimizwa, sitisha uchapishaji, funga pengo, kisha upanue matumizi.