Google показала Gemini 2.5 Computer Use - ИИ-агента, который управляет вебом как человек

Как работает новый «браузерный» агент
Google выпустила модель Gemini 2.5 Computer Use - инструмент, который «видит» экран по скриншотам и пошагово генерирует действия интерфейса: клик, ввод текста, прокрутку, наведение, drag-and-drop, навигацию по URL и другие. Каждый шаг исполняет клиентский код, после чего в модель возвращается новый скриншот и текущий URL - цикл повторяется до завершения задачи или срабатывания политики безопасности.
Модель ориентирована на веб-браузеры, но многообещающе ведёт себя и в мобильных сценариях; при этом контроль на уровне десктопной ОС пока не заявлен.
В базовом наборе поддерживаются типовые пользовательские действия: открытие браузера, переходы назад и вперёд, поиск, навигация по ссылке, ввод с очисткой поля и нажатием Enter, комбинации клавиш, прокрутка документа или конкретного элемента, а также перетаскивание. Координаты указываются в нормализованной сетке 0–999 и денормализуются для реального экрана (Google рекомендует окно порядка 1440×900 пикселей).
Производительность и бенчмарки
По данным Google, Gemini 2.5 Computer Use показывает лучшую точность и скорость среди открытых моделей, управляемых через браузер, на тестах WebVoyager, Online-Mind2Web и WebArena. Также заявлены значительные успехи в управлении мобильными интерфейсами.
Модель оптимизирована для браузеров и работает итеративно: после каждого действия она получает новый скриншот и URL, пока задача не выполнена или пока система безопасности не остановит сессию.
Ранние интеграции внутри Google включают исследовательский Project Mariner и внутренние инструменты для восстановления UI-тестов. На публичных демо агент способен играть в простые веб-игры, открывать новости и заполнять формы без специальных API.
Безопасность и контроль
Google внедрила многоуровневую систему безопасности: встроенные ограничения в модели, внешний сервис оценки действий и системные инструкции, блокирующие рискованные сценарии - от покупок и операций с деньгами до попыток обхода CAPTCHA и управления устройствами. Разработчикам рекомендуют использовать песочницы, логировать шаги и просить явное подтверждение пользователя перед важными действиями.
Где доступно и сколько стоит
Gemini 2.5 Computer Use доступна в режиме предпросмотра через Gemini API - в Google AI Studio и Vertex AI. Цены совпадают с тарифами Gemini 2.5 Pro: вход - 1,25 доллара за 1 млн токенов (около 103 рублей), выход - 10 долларов за 1 млн токенов (около 820 рублей).
Зачем бизнесу и разработчикам
Автоматизация без API. Computer Use решает задачи, где нет готовых интеграций: сложные формы, личные кабинеты, устаревшие интерфейсы. Агент способен авторизоваться, заполнить поля, выбрать пункты в списках и подтвердить операцию, действуя как обученный сотрудник - но программно и в масштабе.
Тестирование UI. Команды QA могут «учить» агента воспроизводить сценарии регрессии и восстанавливать падения тестов. Внутри Google сообщают о значительном росте успешных перезапусков сценариев и снижении ручного труда.
Личные ассистенты и боты поддержки. Ранние партнёры отмечают ускорение сложных пользовательских сценариев - от обработки табличных данных до маршрутизации заявок.
На фоне растущей конкуренции с агентами OpenAI и Anthropic, ставка Google на «браузерный контроль» выглядит практичной: меньше зависимости от API, больше охват реального веба.
Контекст и ограничения
Сейчас модель фокусируется на браузере и не управляет настольной ОС - это отличает её от экспериментов конкурентов, но упрощает безопасность и внедрение. Параллельно Google развивает агентный режим в потребительских продуктах - от «Agent Mode» в приложении Gemini до Project Mariner, который умеет выполнять несколько задач одновременно и запоминает приёмы пользователя («Teach and Repeat»).
Исторический факт: Ещё в начале 2010-х автоматизация браузера строилась на инструментах вроде Selenium IDE. Переход к «визуальным» агентам, которые видят экран и рассуждают о нём, - это новый этап эволюции, сопоставимый с появлением CI/CD в разработке.



