Alapok ÚTMUTATÓ

Többügynök-megerősítő tanulás

A Multi-Agent Reforcement Learning (MARL) több olyan tanuló ágenst képez ki, akiknek közös a környezetük, és mindegyik alkalmazkodik a viselkedéséhez, míg a többiek is alkalmazkodnak.

Áttekintés

A Multi-Agent Reforcement Learning (MARL) több olyan tanuló ágenst képez ki, akiknek közös a környezetük, és mindegyik alkalmazkodik a viselkedéséhez, míg a többiek is alkalmazkodnak. Ez azért fontos, mert a legtöbb valós probléma – forgalom, piacok, robotcsapatok – sok döntéshozót érint, nem egyet.

A Multi-Agent Reforcement Learning az AI eszközkészletben található. Ha megérti, más AI témák könnyebben értékelhetők és összehasonlíthatók.

Mély merülés

Az együgynökkel végzett megerősítő tanulás során az egyik ügynök úgy tanul meg egy szabályzatot, hogy maximalizálja a jutalmat egy rögzített környezetben. A MARL több ügynököt ad hozzá, és ez mindent megváltoztat: mindegyik ügynök szempontjából a környezet nem stacionárius, mert a többiek folyamatosan változtatják az irányelveiket. Az ügynökök lehetnek együttműködőek (csapatjutalom megosztása, például futballozó robotok), versenyképesek (nulla összegűek, például póker vagy üldözés-elkerülés) vagy vegyesek. A kutatók olyan formalizmusokat használnak, mint a Markov-játékok (sztochasztikus játékok), amelyek általánosítják az együgynök Markov-döntési folyamatát. A híres eredmények közé tartozik a DeepMind AlphaStar, aki elérte a Grandmastert a StarCraft II-ben, és OpenAI Öt profi Dota 2 csapatot győzött le, mindkettő az önjátékon keresztül egymás ellen kiképzett ügynökpopulációra támaszkodik.

Technikai betekintés

Az alapvető kihívás a nem stacionaritás: ahogy minden ügynök frissíti a politikáját, a többiek mozgó célponttal néznek szembe, így a naiv független tanulás nem közelíthet egymáshoz. Egy népszerű megoldás a decentralizált végrehajtással (CTDE) végzett központosított képzés, amelyet olyan algoritmusok használnak, mint a MADDPG és a QMIX. A képzés során a kritikus látja az összes ügynök megfigyelését és tevékenységét a stabil gradiensek kiszámításához, de bevetéskor minden ügynök csak a saját helyi megfigyelései alapján cselekszik – a koordinált tanulást gyakorlati, független működéssel kombinálva.

A Multi-Agent Reforcement Learning elsajátítása

A Multi-Agent Reforcement Learning (MARL) több olyan tanuló ágenst képez ki, akiknek közös a környezetük, és mindegyik alkalmazkodik a viselkedéséhez, míg a többiek is alkalmazkodnak. Ez azért fontos, mert a legtöbb valós probléma – forgalom, piacok, robotcsapatok – sok döntéshozót érint, nem egyet. A Multi-Agent Reforcement Learning az AI eszközkészletben található. Ha megérti, más AI témák könnyebben értékelhetők és összehasonlíthatók. A mély megértés kialakítása érdekében a Multi-Agent Reforcement Learninget működési modellként kell kezelni, nem egyetlen jellemzőként: határozza meg a kívánt eredményeket, tisztázza a feltételezéseket, és válassza el, hogy a rendszer mit tud megbízhatóan elvégezni attól, ami még szakértői megítélést igényel.

A gyakorlatban a Multi-Agent Reforcement Learninget használó erős csapatok először erős koncepcionális modelleket építenek fel, majd ezeket a modelleket a valós gyártási korlátokhoz igazítják. Dokumentálják az explicit sikerkritériumokat, tesztelik a valósághű adatokat és munkafolyamatokat, és a megfigyelt hibaminták alapján iterálnak, nem pedig egyszeri benchmark győzelmek alapján. Ez az a hely, ahol az elméleti megértés tartós képességgé válik a termék, a politika és a műveletek között.

Segít elkülöníteni a világos technikai állításokat a marketing nyelvezettől. Ugyanakkor a különböző csapatok eltérően használhatják ugyanazt a kifejezést, ezért korán határozza meg a hatókört. A legrugalmasabb megközelítés a kísérleti sebesség és az irányítási fegyelem kombinálása: kísérleti kísérletek futtatása, bizonyítékok rögzítése, döntési naplók közzététele és a biztosítékok folyamatos frissítése a modell viselkedésének, a felhasználói elvárásoknak és a szabályozási követelményeknek megfelelően.

Stratégiai hatás

Segít elkülöníteni a világos technikai állításokat a marketing nyelvezettől.

Segít elkülöníteni a világos technikai állításokat a marketing nyelvezettől. A kiváló minőségű telepítéseknél ez mérhető működési szabályokká, tulajdonosi határokká és ismétlődő felülvizsgálati rituálékká alakul át, így a csapatok növelhetik a bizalmat a kétértelműség skálázása helyett.

Feltehet jobb végrehajtási kérdéseket, mielőtt pénzt vagy időt költene.

Feltehet jobb végrehajtási kérdéseket, mielőtt pénzt vagy időt költene. A kiváló minőségű telepítéseknél ez mérhető működési szabályokká, tulajdonosi határokká és ismétlődő felülvizsgálati rituálékká alakul át, így a csapatok növelhetik a bizalmat a kétértelműség skálázása helyett.

A közös tudással rendelkező csapatok jobb döntéseket hoznak a termékekkel, irányelvekkel és tanulással kapcsolatban.

A közös tudással rendelkező csapatok jobb döntéseket hoznak a termékekkel, irányelvekkel és tanulással kapcsolatban. A kiváló minőségű telepítéseknél ez mérhető működési szabályokká, tulajdonosi határokká és ismétlődő felülvizsgálati rituálékká alakul át, így a csapatok növelhetik a bizalmat a kétértelműség skálázása helyett.

A többszereplős megerősítő tanulás jövője

A MARL a nagyobb, nyitottabb rendszerek felé halad, ahol ügynökök lépnek be és távoznak, valamint az LLM-alapú ügynökcsoportok felé, amelyek együtt tárgyalnak, delegálnak és használnak eszközöket. Előrelépésre számíthat a méretezhető hitelkiosztás (aki megérdemli a jutalmat egy nagy csapatban), a kialakuló kommunikációs protokollok és a versenytárs ügynökök biztonsági garanciái terén. Ahogy az autonóm járművek, az energiahálózatok és a kereskedelmi rendszerek egyre inkább kölcsönhatásba lépnek egymással, a robusztus többügynök koordináció – és az összejátszások és a visszacsatolási hurkok destabilizálása – központi gyakorlati és szabályozási szemponttá válik.

Valós megvalósítás

Raktári robotok flottáinak koordinálása, hogy a csomagokat anélkül irányítsák, hogy a folyosókon ütköznének vagy elakadnának

Közlekedési jelzések vezérlése, ahol minden kereszteződés egy ügynök, amely megtanulja csökkenteni a városi torlódásokat

Oktatójátékos mesterséges intelligencia, mint például a OpenAI Five (Dota 2) és az AlphaStar (StarCraft II) számos ügynökön keresztül

Ajánlatok és keresleti válaszok kezelése az elosztott akkumulátorok és otthonok között egy intelligens elektromos hálózatban

Megvalósítási minták

Többszereplős megerősítés tanulás a gyakorlatban

A raktári robotok flottáinak koordinálása, hogy a csomagokat anélkül irányítsák, hogy ütköznének vagy elakadnának a folyosókon.

Raktári robotok flottáinak koordinálása, hogy a csomagokat ütközés vagy patthelyzet nélkül irányítsák a folyosókon A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöbértékeket, emberi eszkalációs útvonalat tartanak a szélső eseteknél, és nyomon követik mind a termelékenységnövekedést, mind a hibaköltségeket az idő múlásával.

Többszereplős megerősítés tanulás a gyakorlatban

Közlekedési jelzések vezérlése, ahol minden kereszteződés egy ügynök, amely megtanulja csökkenteni a városi torlódásokat.

Közlekedési jelzések vezérlése, ahol minden kereszteződés egy ügynök, aki megtanulja a városi torlódások csökkentését. A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöböket, megtartják az emberi eszkalációs útvonalat a szélsőséges eseteknél, és nyomon követik a termelékenység növekedését és a hibaköltségeket is.

Többszereplős megerősítés tanulás a gyakorlatban

Oktatójátékos mesterséges intelligencia, mint például a OpenAI Five (Dota 2) és az AlphaStar (StarCraft II) sok ügynök által végzett önálló játékon keresztül.

Képző mesterséges intelligencia, mint a OpenAI Five (Dota 2) és az AlphaStar (StarCraft II) sok ügynök önjátékán keresztül A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöböt, emberi eszkalációs utat tartanak a szélsőséges eseteknél, és nyomon követik a termelékenység növekedését és a hibaköltségeket az idő múlásával.

Többszereplős megerősítés tanulás a gyakorlatban

Ajánlatok és keresleti válaszok kezelése az elosztott akkumulátorok és otthonok között egy intelligens elektromos hálózatban.

Az ajánlatok és a keresletreakció kezelése az elosztott akkumulátorok és otthonok között egy intelligens villamosenergia-hálózatban A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöbértékeket, megtartják az emberi eszkalációs utat a szélsőséges eseteknél, és nyomon követik a termelékenység növekedését és a hibaköltségeket is.

Kockázatok és védőkorlátok

!

A különböző csapatok eltérően használhatják ugyanazt a kifejezést, ezért korán határozza meg a hatókört.

!

A benchmarkok erősnek tűnhetnek, miközben a valós teljesítmény egyenetlen.

!

Az adatminőségi és értékelési tervek figyelmen kívül hagyása gyakran törékeny eredményekhez vezet.

Végrehajtási ütemterv

1

Kezdje a kívánt eredmény egyszerű nyelvű meghatározásával.

Kezdje a kívánt eredmény egyszerű nyelvű meghatározásával. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

2

A tesztelés előtt válasszon egy sikermutatót és egy hibafeltételt.

A tesztelés előtt válasszon egy sikermutatót és egy hibafeltételt. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

3

Futtasson egy kis pilotot reprezentatív adatokkal, ne egy csiszolt demókészlettel.

Futtasson egy kis pilotot reprezentatív adatokkal, ne egy csiszolt demókészlettel. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

4

Dokumentálja, hol segít a Multi-Agent Reforcement Learning, és hol jobbak az egyszerűbb módszerek.

Dokumentálja, hol segít a Multi-Agent Reforcement Learning, és hol jobbak az egyszerűbb módszerek. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

Folytassa a felfedezést