РЪКОВОДСТВО по основи

Multi-Agent Reinforcement Learning

Multi-Agent Reinforcement Learning (MARL) обучава няколко обучаващи агенти, които споделят среда, като всеки адаптира поведението си, докато останалите също се адаптират.

Преглед

Multi-Agent Reinforcement Learning (MARL) обучава няколко обучаващи агенти, които споделят среда, като всеки адаптира поведението си, докато останалите също се адаптират. Има значение, защото повечето проблеми в реалния свят - трафик, пазари, екипи от роботи - включват много хора, вземащи решения, а не един.

Multi-Agent Reinforcement Learning се намира в основния набор от инструменти за изкуствен интелект. Когато го разберете, други теми за ИИ стават по-лесни за оценка и сравнение.

Дълбоко гмуркане

При обучението за подсилване с един агент, един агент научава политика чрез максимизиране на възнаграждението във фиксирана среда. MARL добавя повече агенти и това променя всичко: от гледна точка на всеки агент, средата е нестационарна, защото другите продължават да променят политиките си. Агентите могат да бъдат кооперативни (споделяне на отборна награда, като роботи, играещи футбол), конкурентни (с нулева сума, като покер или избягване на преследване) или смесени. Изследователите използват формализми като игри на Марков (стохастични игри), които обобщават процеса на вземане на решение на Марков с един агент. Известни резултати включват AlphaStar на DeepMind, достигайки Grandmaster в StarCraft II и OpenAI Пет побеждаващи професионални Dota 2 отбора, като и двата разчитат на популации от агенти, обучени един срещу друг чрез самостоятелна игра.

Техническа информация

Основно предизвикателство е нестационарността: тъй като всеки агент актуализира политиката си, останалите са изправени пред движеща се цел, така че наивното независимо обучение може да не успее да се обедини. Популярно решение е централизирано обучение с децентрализирано изпълнение (CTDE), използвано от алгоритми като MADDPG и QMIX. По време на обучението критикът вижда наблюденията и действията на всички агенти, за да изчисли стабилни градиенти, но при разгръщането всеки агент действа, използвайки само собствените си локални наблюдения — комбинирайки координирано обучение с практическа, независима работа.

Овладяване на обучението за подсилване с множество агенти

Multi-Agent Reinforcement Learning (MARL) обучава няколко обучаващи агенти, които споделят среда, като всеки адаптира поведението си, докато останалите също се адаптират. Има значение, защото повечето проблеми в реалния свят - трафик, пазари, екипи от роботи - включват много лица, вземащи решения, а не един. Multi-Agent Reinforcement Learning се намира в основния набор от инструменти за изкуствен интелект. Когато го разберете, други теми за ИИ стават по-лесни за оценка и сравнение. За да изградите дълбоко разбиране, третирайте Multi-Agent Reinforcement Learning като оперативен модел, а не като отделна функция: дефинирайте желаните резултати, изяснете предположенията и отделете това, което системата може да направи надеждно, от това, което все още изисква експертна преценка.

На практика силни екипи, използващи Multi-Agent Reinforcement Learning, първо изграждат силни концептуални модели, след което картографират тези модели към реални производствени ограничения. Те документират изрични критерии за успех, тестват срещу реалистични данни и работни потоци и повтарят въз основа на наблюдавани модели на неуспех, а не на еднократни победи в бенчмарка. Това е мястото, където теоретичното разбиране се превръща в трайна способност за продукти, политики и операции.

Помага ви да отделите ясните технически твърдения от маркетинговия език. В същото време различни екипи могат да използват един и същ термин по различен начин, така че дефинирайте обхвата рано. Най-устойчивият подход е да се комбинира скоростта на експериментиране с дисциплината на управление: стартирайте пилотни проекти, събирайте доказателства, публикувайте регистрационни файлове за решения и непрекъснато актуализирайте предпазните мерки, докато поведението на модела, очакванията на потребителите и регулаторните изисквания се развиват.

Стратегическо въздействие

Помага ви да отделите ясните технически твърдения от маркетинговия език.

Помага ви да отделите ясните технически твърдения от маркетинговия език. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Можете да задавате въпроси за по-добро внедряване, преди да харчите пари или време.

Можете да задавате въпроси за по-добро внедряване, преди да харчите пари или време. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Екипи със споделено разбиране вземат по-добри решения за продукти, политики и обучение.

Екипи със споделено разбиране вземат по-добри решения за продукти, политики и обучение. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Бъдещето на мултиагентното обучение за подсилване

MARL се движи към по-големи, по-отворени системи, където агентите влизат и излизат, и към екипи от агенти, базирани на LLM, които преговарят, делегират и използват инструменти заедно. Очаквайте напредък по присвояване на мащабируем кредит (който заслужава награда в голям екип), протоколи за възникване на комуникация и гаранции за безопасност за конкурентни агенти. Тъй като автономните превозни средства, енергийните мрежи и системите за търговия все повече си взаимодействат, стабилната мултиагентна координация - и избягването на тайни споразумения или дестабилизиращи вериги за обратна връзка - се превръща в централна практическа и регулаторна грижа.

Внедряване в реалния свят

Координиране на флоти от складови роботи, така че да маршрутизират пакети без сблъсък или блокиране в коридорите

Контрол на пътната сигнализация, където всяко кръстовище е агент, който се учи да намалява задръстванията в целия град

AI за тренировъчни игри като OpenAI Five (Dota 2) и AlphaStar (StarCraft II) чрез самостоятелна игра сред много агенти

Управление на оферти и отговор на търсенето между разпределени батерии и домове в интелигентна електрическа мрежа

Модели на изпълнение

Обучение за укрепване на няколко агента на практика

Координиране на флоти от складови роботи, така че да маршрутизират пакети без сблъсък или блокиране в коридорите.

Координиране на флотилии от складови роботи, така че да маршрутизират пакети без сблъсък или безизходица в коридори Екипите обикновено получават по-добри резултати, когато определят праговете на качеството предварително, поддържат човешки път за ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Обучение за укрепване на няколко агента на практика

Контрол на пътната сигнализация, където всяко кръстовище е агент, който се учи да намалява задръстванията в целия град.

Контрол на пътната сигнализация, където всяко кръстовище е агент, който се учи да намалява задръстванията в целия град. Екипите обикновено получават по-добри резултати, когато дефинират прагове за качество отпред, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Обучение за укрепване на няколко агента на практика

AI за тренировъчни игри като OpenAI Five (Dota 2) и AlphaStar (StarCraft II) чрез самостоятелна игра сред много агенти.

AI за тренировъчна игра като OpenAI Five (Dota 2) и AlphaStar (StarCraft II) чрез самостоятелна игра между много агенти Екипите обикновено получават по-добри резултати, когато определят праговете за качество предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Обучение за укрепване на няколко агента на практика

Управление на оферти и отговор на търсенето между разпределени батерии и домове в интелигентна електрическа мрежа.

Управление на оферти и отговор на търсенето между разпределени батерии и домове в интелигентна електрическа мрежа Екипите обикновено получават по-добри резултати, когато предварително определят праговете за качество, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Рискове и предпазни огради

!

Различните екипи могат да използват един и същи термин по различен начин, така че дефинирайте обхвата рано.

!

Бенчмарковете могат да изглеждат силни, докато производителността в реалния свят е неравномерна.

!

Пренебрегването на качеството на данните и плановете за оценка често създава крехки резултати.

Пътна карта за изпълнение

1

Започнете с дефиниция на обикновен език за резултата, от който се нуждаете.

Започнете с дефиниция на обикновен език за резултата, от който се нуждаете. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

2

Изберете един показател за успех и едно условие за неуспех преди тестване.

Изберете един показател за успех и едно условие за неуспех преди тестване. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

3

Изпълнете малък пилотен проект с представителни данни, а не изпипан демонстрационен набор.

Изпълнете малък пилотен проект с представителни данни, а не изпипан демонстрационен набор. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

4

Документирайте къде Multi-Agent Reinforcement Learning помага и къде по-простите методи са по-добри.

Документирайте къде Multi-Agent Reinforcement Learning помага и къде по-простите методи са по-добри. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

Продължете да изследвате