Обзор
Многоагентное обучение с подкреплением (MARL) обучает несколько обучающихся агентов, которые используют общую среду, каждый из которых адаптирует свое поведение, в то время как другие тоже адаптируются. Это важно, потому что большинство реальных проблем — дорожное движение, рынки, команды роботов — затрагивают многих лиц, принимающих решения, а не одного.
Многоагентное обучение с подкреплением входит в основной набор инструментов ИИ. Когда вы это поймете, другие темы ИИ станет легче оценивать и сравнивать.
Глубокое погружение
При обучении с подкреплением с одним агентом один агент изучает политику, максимизируя вознаграждение в фиксированной среде. MARL добавляет больше агентов, и это меняет все: с точки зрения каждого агента среда нестационарна, потому что остальные продолжают менять свою политику. Агенты могут быть совместными (разделять командную награду, как роботы, играющие в футбол), соревновательными (с нулевой суммой, как покер или преследование-уклонение) или смешанными. Исследователи используют формализмы, такие как марковские игры (стохастические игры), которые обобщают марковский процесс принятия решений с одним агентом. Среди известных результатов — AlphaStar от DeepMind, достигшая уровня гроссмейстера в StarCraft II, и OpenAI, победившие пять профессиональных команд Dota 2, обе из которых полагаются на группы агентов, обученных друг против друга посредством самостоятельной игры.
Техническая информация
Основной проблемой является нестационарность: поскольку каждый агент обновляет свою политику, остальные сталкиваются с движущейся целью, поэтому наивное независимое обучение может не совпасть. Популярным решением является централизованное обучение с децентрализованным выполнением (CTDE), используемое такими алгоритмами, как MADDPG и QMIX. Во время обучения критик видит наблюдения и действия всех агентов, чтобы вычислить стабильные градиенты, но при развертывании каждый агент действует, используя только свои собственные локальные наблюдения, сочетая скоординированное обучение с практической независимой работой.
Освоение многоагентного обучения с подкреплением
Многоагентное обучение с подкреплением (MARL) обучает несколько обучающихся агентов, которые используют общую среду, каждый из которых адаптирует свое поведение, в то время как другие тоже адаптируются. Это важно, потому что большинство реальных проблем — дорожное движение, рынки, команды роботов — затрагивают многих лиц, принимающих решения, а не одного. Многоагентное обучение с подкреплением входит в основной набор инструментов ИИ. Когда вы это поймете, другие темы ИИ станет легче оценивать и сравнивать. Чтобы добиться глубокого понимания, рассматривайте многоагентное обучение с подкреплением как операционную модель, а не как отдельную функцию: определите желаемые результаты, проясните предположения и отделите то, что система может делать надежно, от того, что все еще требует экспертной оценки.
На практике сильные команды, использующие многоагентное обучение с подкреплением, сначала создают надежные концептуальные модели, а затем сопоставляют эти модели с реальными производственными ограничениями. Они документируют явные критерии успеха, проводят тестирование на основе реалистичных данных и рабочих процессов, а также выполняют итерации на основе наблюдаемых моделей неудач, а не разовых побед в тестах. Именно здесь теоретическое понимание превращается в прочные возможности в отношении продукта, политики и операций.
Это поможет вам отделить четкие технические заявления от маркетингового языка. В то же время разные команды могут использовать один и тот же термин по-разному, поэтому заранее определите масштаб. Самый устойчивый подход — сочетать скорость экспериментирования с дисциплиной управления: запускать пилотные проекты, собирать доказательства, публиковать журналы решений и постоянно обновлять меры безопасности по мере развития поведения модели, ожиданий пользователей и нормативных требований.
Стратегическое воздействие
Это поможет вам отделить четкие технические заявления от маркетингового языка.
Это поможет вам отделить четкие технические заявления от маркетингового языка. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.
Вы можете задать более эффективные вопросы по реализации, прежде чем тратить деньги или время.
Вы можете задать более эффективные вопросы по реализации, прежде чем тратить деньги или время. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.
Команды с общим пониманием принимают более эффективные решения по продуктам, политике и обучению.
Команды с общим пониманием принимают более эффективные решения по продуктам, политике и обучению. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.
Реальная реализация
Координация парков складских роботов, чтобы они направляли пакеты без столкновений и блокировок в проходах.
Управление светофором, где каждый перекресток является агентом, который учится уменьшать пробки в масштабе города.
Обучение искусственного интеллекта в играх, таких как OpenAI Five (Dota 2) и AlphaStar (StarCraft II), посредством самостоятельной игры среди множества агентов.
Управление предложениями и реагированием спроса между распределенными батареями и домами в интеллектуальной электросети
Шаблоны реализации
Многоагентное обучение с подкреплением на практике
Координация парков складских роботов, чтобы они маршрутизировали пакеты без столкновений и заторов в проходах.
Координация парков складских роботов, чтобы они маршрутизировали пакеты без столкновений и заторов в проходах. Команды обычно добиваются лучших результатов, если заранее определяют пороговые значения качества, поддерживают человеческий путь эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.
Многоагентное обучение с подкреплением на практике
Управление светофорами, при котором каждый перекресток является агентом, который учится уменьшать пробки в масштабе города.
Управление светофорами, при котором каждый перекресток является агентом, обучающимся уменьшать заторы в масштабах города. Команды обычно добиваются лучших результатов, когда заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.
Многоагентное обучение с подкреплением на практике
Тренируйте искусственный интеллект в играх, таких как OpenAI Five (Dota 2) и AlphaStar (StarCraft II), посредством самостоятельной игры среди множества агентов.
Обучение искусственного интеллекта в играх, таких как OpenAI Five (Dota 2) и AlphaStar (StarCraft II) посредством самостоятельной игры между многими агентами. Команды обычно добиваются лучших результатов, если заранее определяют пороговые значения качества, сохраняют путь эскалации с участием человека для крайних случаев и отслеживают как прирост производительности, так и затраты на ошибки с течением времени.
Многоагентное обучение с подкреплением на практике
Управление предложениями и реагированием спроса среди распределенных батарей и домов в интеллектуальной электросети.
Управление предложениями и реагированием спроса между распределенными батареями и домами в интеллектуальной электросети. Команды обычно получают лучшие результаты, когда заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.
Риски и ограничения
Разные команды могут использовать один и тот же термин по-разному, поэтому заранее определите масштаб.
Тесты могут выглядеть сильными, в то время как реальная производительность неравномерна.
Игнорирование качества данных и планов оценки часто приводит к нестабильным результатам.
Дорожная карта реализации
Начните с простого определения желаемого результата.
Начните с простого определения желаемого результата. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.
Перед тестированием выберите один показатель успеха и одно условие отказа.
Перед тестированием выберите один показатель успеха и одно условие отказа. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.
Запустите небольшой пилотный проект с репрезентативными данными, а не отточенный демонстрационный набор.
Запустите небольшой пилотный проект с репрезентативными данными, а не отточенный демонстрационный набор. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.
Документ, в котором помогает многоагентное обучение с подкреплением и где более простые методы лучше.
Документ, в котором помогает многоагентное обучение с подкреплением и где более простые методы лучше. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.