Техническое РУКОВОДСТВО

Агенты "Вояджера" и библиотеки навыков

Voyager — это агент 2023 года, работающий на базе LLM, который автономно играет в Minecraft, постоянно учится, записывая навыки многократного использования кода и сохраняя их в растущей библиотеке.

Обзор

Voyager — это агент 2023 года, работающий на базе LLM, который автономно играет в Minecraft, постоянно учится, записывая навыки многократного использования кода и сохраняя их в растущей библиотеке. Оно показало, что агент может проводить открытое обучение на протяжении всей жизни без каких-либо градиентных обновлений, просто накапливая и повторно используя программы.

Агенты Voyager и Skill-Library — это технический строительный блок, который влияет на качество модели, стоимость инфраструктуры, задержку и надежность в масштабе.

Глубокое погружение

Созданный NVIDIA, Калифорнийским технологическим институтом и его коллегами (Ванг и др.), Voyager использует GPT-4 в качестве своего мозга и рассматривает навыки как исполняемый код JavaScript, который управляет ботом Minecraft. Он запускает три взаимодействующих компонента: автоматическую учебную программу, которая предлагает все более сложные цели для максимального увеличения исследования, итеративный механизм подсказок, который пишет код, запускает его в игре, считывает ошибки и обратную связь от среды и выполняет самоотладку до тех пор, пока навык не заработает, а также библиотеку навыков, в которой каждый проверенный навык сохраняется и индексируется путем встраивания описания на естественном языке. Поскольку новые навыки складываются из ранее накопленных, способности со временем накапливаются. "Вояджер" получал гораздо больше уникальных предметов, преодолевал большие расстояния и открывал этапы дерева технологий гораздо быстрее, чем предыдущие агенты, а его приобретенные навыки переносились в новые миры.

Техническая информация

Voyager обучается в контексте, а не путем изменения весов модели. Навык — это проверенный фрагмент кода; он сохраняется с встраиванием его описания, так что при возникновении новой задачи семантически релевантные навыки извлекаются и предоставляются в качестве строительных блоков. Цикл самосовершенствования таков: сгенерируйте код, выполните его, наблюдайте за ошибками и состоянием игры, попросите модель исправить это, повторите. Это превращает метод проб и ошибок в надежные, компонуемые программы, а не в эфемерные рассуждения.

Освоение «Вояджера» и агентов библиотеки навыков

Voyager — это агент 2023 года, работающий на базе LLM, который автономно играет в Minecraft, постоянно учится, записывая навыки многократного использования кода и сохраняя их в растущей библиотеке. Оно показало, что агент может проводить открытое обучение на протяжении всей жизни без каких-либо градиентных обновлений, просто накапливая и повторно используя программы. Агенты Voyager и Skill-Library — это технический строительный блок, который влияет на качество модели, стоимость инфраструктуры, задержку и надежность в масштабе. Чтобы достичь глубокого понимания, рассматривайте Voyager и Skill-Library Agents как операционную модель, а не как единую функцию: определите желаемые результаты, проясните предположения и отделите то, что система может делать надежно, от того, что все еще требует экспертной оценки.

На практике сильные команды, использующие агенты Voyager и Skill-Library, оптимизируют архитектуру, данные и выбор инфраструктуры с точки зрения надежности и стоимости. Они документируют явные критерии успеха, проводят тестирование на основе реалистичных данных и рабочих процессов, а также выполняют итерации на основе наблюдаемых моделей неудач, а не разовых побед в тестах. Именно здесь теоретическое понимание превращается в прочные возможности в отношении продукта, политики и операций.

Архитектурные решения влияют на производительность и эксплуатационные расходы на протяжении многих лет. В то же время оптимизация одного теста может скрыть более широкие недостатки системы. Самый устойчивый подход — сочетать скорость экспериментирования с дисциплиной управления: запускать пилотные проекты, собирать доказательства, публиковать журналы решений и постоянно обновлять меры безопасности по мере развития поведения модели, ожиданий пользователей и нормативных требований.

Стратегическое воздействие

Архитектурные решения влияют на производительность и эксплуатационные расходы на протяжении многих лет.

Архитектурные решения влияют на производительность и эксплуатационные расходы на протяжении многих лет. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Техническое образование помогает командам выбрать правильный стек, а не только самый новый.

Техническое образование помогает командам выбрать правильный стек, а не только самый новый. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Лучший инженерный выбор снижает вероятность возникновения проблем с надежностью на производстве.

Лучший инженерный выбор снижает вероятность возникновения проблем с надежностью на производстве. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Будущее «Вояджера» и агентов библиотеки навыков

Агенты библиотек навыков указывают на системы, которые накапливают повторно используемые, проверенные способности и становятся более способными по мере продолжительности работы, что является воплощением обучения на протяжении всей жизни. Ожидается, что эти библиотеки выйдут за рамки игр и станут включать в себя робототехнику, автоматизацию программного обеспечения и цифровых помощников, а поиск, компоновка и проверки безопасности приобретенных навыков станут основной инфраструктурой. Большие открытые вопросы — это сокращение плохих навыков, совместное использование библиотек между агентами и гарантия того, что продуманное поведение останется надежным.

Реальная реализация

Автономное продвижение по дереву технологий Minecraft (от дерева к камню, к железу и к алмазным инструментам), формируя изученные навыки.

Написание и самостоятельная отладка навыка «копать и создавать» кода, а затем повторно использовать его всякий раз, когда эта подзадача повторяется.

Получение ранее сохраненного навыка «борьбы с зомби» посредством внедрения его описания при появлении аналогичной угрозы.

Перенос библиотеки изученных навыков в свежесозданный мир Minecraft для более быстрого выполнения новых задач.

Шаблоны реализации

Агенты «Вояджер» и Skill-Library на практике

Автономное продвижение по дереву технологий Minecraft (от дерева к камню, к железу и к алмазным инструментам), формируя изученные навыки.

Автономное продвижение по технологическому дереву Minecraft (от дерева к камню, к железу и к алмазным инструментам) путем объединения изученных навыков. Команды обычно добиваются лучших результатов, если заранее определяют пороговые значения качества, поддерживают человеческий путь эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

Агенты «Вояджер» и Skill-Library на практике

Написание и самостоятельная отладка навыка «копать и создавать» кода, а затем повторно использовать его всякий раз, когда эта подзадача повторяется.

Написание и самостоятельная отладка навыков кода «копать и создавать», а затем повторно использовать их всякий раз, когда эта подзадача повторяется. Команды обычно получают лучшие результаты, когда заранее определяют пороговые значения качества, сохраняют путь эскалации с участием человека для крайних случаев и отслеживают как прирост производительности, так и затраты на ошибки с течением времени.

Агенты «Вояджер» и Skill-Library на практике

Получение ранее сохраненного навыка «борьбы с зомби» посредством внедрения его описания при появлении аналогичной угрозы.

Извлечение ранее сохраненного навыка «борьбы с зомби» посредством внедрения его описания при появлении аналогичной угрозы. Команды обычно добиваются лучших результатов, если заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

Агенты «Вояджер» и Skill-Library на практике

Перенос библиотеки изученных навыков в свежесозданный мир Minecraft для более быстрого выполнения новых задач.

Перенос библиотеки изученных навыков в недавно созданный мир Minecraft для более быстрой загрузки новых задач. Команды обычно добиваются лучших результатов, если заранее определяют пороговые значения качества, сохраняют путь эскалации с участием человека для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

Риски и ограничения

!

Оптимизация одного теста может скрыть более широкие недостатки системы.

!

Затраты на инфраструктуру и техническое обслуживание часто недооцениваются.

!

Пробелы в безопасности и наблюдаемости могут увеличиваться по мере усложнения систем.

Дорожная карта реализации

1

Определите целевые показатели задержки, качества и стоимости перед внедрением.

Определите целевые показатели задержки, качества и стоимости перед внедрением. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

2

Тестирование при реалистичной нагрузке и условиях данных.

Тестирование при реалистичной нагрузке и условиях данных. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

3

Мониторинг прибора на наличие ошибок, дрейфа и влияния пользователя.

Мониторинг прибора на наличие ошибок, дрейфа и влияния пользователя. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

4

Перед масштабированием подготовьте пути отката и реагирования на инциденты.

Перед масштабированием подготовьте пути отката и реагирования на инциденты. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

Продолжайте исследовать