Руководство для агентов, использующих компьютеры

Обзор

Агенты, использующие компьютер, управляют компьютером так же, как человек: просматривают экран, перемещают курсор, щелкают мышью и печатают. Это позволяет ИИ использовать любое программное обеспечение с графическим интерфейсом, даже приложения без API.

Агенты, использующие компьютер, фокусируются на практическом развертывании: превращении возможностей модели в надежные ежедневные рабочие процессы, приносящие измеримую ценность.

Глубокое погружение

Агент, использующий компьютер (CUA), управляет реальным или виртуальным рабочим столом через его экран и устройства ввода, а не через API-интерфейсы уровня кода. Модель получает снимки экрана, поясняет, что она видит, и выводит действия низкого уровня, такие как «нажмите на координату (412, 230)», «введите этот текст» или «прокрутите вниз». Этот цикл восприятия-действия повторяется: действуйте, сделайте новый снимок экрана, решите следующий шаг. Поскольку CUA работает на уровне пикселей и нажатий клавиш, он может управлять веб-браузерами, заполнять формы, перемещаться по меню и использовать устаревшие приложения, не предоставляющие программного интерфейса. Примеры включают использование компьютера Anthropic Claude и Оператор OpenAI. Компромиссы реальны: чтение экрана может быть медленным, щелчки могут пропускаться, а предоставление агенту контроля над машиной вызывает проблемы с безопасностью, поэтому большинство из них работают в изолированных или контролируемых средах.

Техническая информация

Агенту предоставляется снимок экрана и задание, а модель с возможностями машинного зрения привязывает элементы (кнопки, поля) к пиксельным координатам. Он генерирует структурированное действие, которое уровень автоматизации выполняет в отношении ОС или браузера. После каждого действия новый снимок экрана замыкает цикл, поэтому агент воспринимает последствия, прежде чем действовать снова. Надежность во многом зависит от точного визуального обоснования, а также от логики повтора или проверки, когда щелчок попадает не на тот элемент.

Освоение агентов, использующих компьютер

Чтобы добиться более глубокого понимания, рассматривайте агентов, использующих компьютер, как операционную модель, а не как отдельную функцию. Определите желаемые результаты, проясните предположения и отделите то, что система может делать надежно, от того, что все еще требует экспертной оценки.

На практике сильные команды, использующие агентов, использующих компьютеры, сосредотачиваются на результатах рабочего процесса, а не на моделировании демонстраций, и заранее определяют контрольные точки, выполняемые людьми. Они документируют явные критерии успеха, проводят тестирование на основе реалистичных данных и рабочих процессов, а также выполняют итерации на основе наблюдаемых моделей неудач, а не разовых побед в тестах. Именно здесь теоретическое понимание превращается в прочные возможности в отношении продукта, политики и операций.

Проектирование на уровне приложения определяет, улучшит ли ИИ реальные результаты. В то же время автоматизация сломанного процесса может усугубить существующие проблемы. Самый устойчивый подход — сочетать скорость экспериментирования с дисциплиной управления: запускать пилотные проекты, собирать доказательства, публиковать журналы решений и постоянно обновлять меры безопасности по мере развития поведения модели, ожиданий пользователей и нормативных требований.

Стратегическое воздействие

Проектирование на уровне приложения определяет, улучшит ли ИИ реальные результаты.

Проектирование на уровне приложения определяет, улучшит ли ИИ реальные результаты. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Хорошая интеграция рабочих процессов обеспечивает повышение производительности, которому пользователи могут доверять.

Хорошая интеграция рабочих процессов обеспечивает повышение производительности, которому пользователи могут доверять. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Хорошо продуманные варианты использования снижают усталость от изменений и риск внедрения.

Хорошо продуманные варианты использования снижают усталость от изменений и риск внедрения. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.

Будущее агентов, использующих компьютеры

Точность и скорость будут улучшаться по мере того, как модели будут лучше определять элементы пользовательского интерфейса, а некоторые взаимодействия будут переходить к более быстрым деревьям доступности вместо необработанных пикселей. Ожидайте более строгие меры защиты: запросы подтверждения перед рискованными действиями, ограниченные песочницы и журналы аудита. Стандартные тесты для настольных и веб-задач развиваются, обеспечивая измеримый прогресс. В долгосрочной перспективе CUA могут сочетать управление пикселями с прямыми вызовами API, используя тот, который более надежен для каждого приложения, сохраняя при этом этап утверждения человеком для таких конфиденциальных операций, как платежи.

Реальная реализация

Агент, который бронирует ресторан, открывая браузер, перемещаясь по сайту бронирования, выбирая время и вводя контактные данные.

Автоматизация отчетов о расходах путем чтения квитанций на экране и ввода значений в настольное бухгалтерское приложение, не имеющее API.

Тестирование качества, при котором агент проходит процесс регистрации веб-приложения, чтобы убедиться, что каждая кнопка и форма работают.

Заполнение повторяющихся веб-форм правительства или страхования, читая метки каждого поля и вводя правильную информацию.

Шаблоны реализации

Агенты, использующие компьютеры, на практике

Агент, который бронирует ресторан, открывая браузер, перемещаясь по сайту бронирования, выбирая время и вводя контактные данные.

Команды обычно добиваются лучших результатов, когда заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

Агенты, использующие компьютеры, на практике

Автоматизация отчетов о расходах путем чтения квитанций на экране и ввода значений в настольное бухгалтерское приложение, не имеющее API.

Команды обычно добиваются лучших результатов, когда заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

Агенты, использующие компьютеры, на практике

Тестирование качества, при котором агент проходит процесс регистрации веб-приложения, чтобы убедиться, что каждая кнопка и форма работают.

Команды обычно добиваются лучших результатов, когда заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

Агенты, использующие компьютеры, на практике

Заполнение повторяющихся веб-форм правительства или страхования, читая метки каждого поля и вводя правильную информацию.

Команды обычно добиваются лучших результатов, когда заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.

Риски и ограничения

!

Автоматизация сломанного процесса может усугубить существующие проблемы.

!

Команды могут чрезмерно автоматизировать и исключить необходимое человеческое суждение.

!

Качество может ухудшиться, если результаты не будут оцениваться постоянно.

Дорожная карта реализации

1

Составьте карту текущего рабочего процесса и определите этап, вызывающий наибольшие затруднения.

Относитесь к этому как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

2

Определите человеческие контрольно-пропускные пункты перед полной автоматизацией.

Относитесь к этому как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

3

Обучайте пользователей подсказкам, путям эскалации и стандартам качества.

Относитесь к этому как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

4

Отслеживайте результаты на уровне задач, чтобы подтвердить устойчивую ценность.

Относитесь к этому как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.

Продолжайте исследовать

ИИ-помощники

Создавайте рабочие процессы помощника, которые останутся полезными и заслуживающими доверия.

Читать руководство

AI-кодирование

Посмотрите, как прикладной искусственный интеллект улучшает доставку программного обеспечения.

Читать руководство

Агенты, использующие компьютеры

Обзор

Глубокое погружение

Техническая информация

Освоение агентов, использующих компьютер

Стратегическое воздействие

Будущее агентов, использующих компьютеры

Реальная реализация

Шаблоны реализации

Агенты, использующие компьютеры, на практике

Агенты, использующие компьютеры, на практике

Агенты, использующие компьютеры, на практике

Агенты, использующие компьютеры, на практике

Риски и ограничения

Дорожная карта реализации

Продолжайте исследовать

ИИ-помощники

AI-кодирование

Related guides