Google показала Gemini 2.5 Computer Use - ИИ-агента, который управляет вебом как человек

Google представила модель Gemini 2.5 Computer Use — ИИ, который может выполнять действия в браузере как человек: кликать, вводить текст, прокручивать страницы и работать с формами. Предпросмотр уже доступен в Gemini API через Google AI Studio и Vertex AI.
Google показала Gemini 2.5 Computer Use - ИИ-агента, который управляет вебом как человек

Как работает новый «браузерный» агент

Google выпустила модель Gemini 2.5 Computer Use - инструмент, который «видит» экран по скриншотам и пошагово генерирует действия интерфейса: клик, ввод текста, прокрутку, наведение, drag-and-drop, навигацию по URL и другие. Каждый шаг исполняет клиентский код, после чего в модель возвращается новый скриншот и текущий URL - цикл повторяется до завершения задачи или срабатывания политики безопасности.

Модель ориентирована на веб-браузеры, но многообещающе ведёт себя и в мобильных сценариях; при этом контроль на уровне десктопной ОС пока не заявлен.

В базовом наборе поддерживаются типовые пользовательские действия: открытие браузера, переходы назад и вперёд, поиск, навигация по ссылке, ввод с очисткой поля и нажатием Enter, комбинации клавиш, прокрутка документа или конкретного элемента, а также перетаскивание. Координаты указываются в нормализованной сетке 0–999 и денормализуются для реального экрана (Google рекомендует окно порядка 1440×900 пикселей).

Производительность и бенчмарки

По данным Google, Gemini 2.5 Computer Use показывает лучшую точность и скорость среди открытых моделей, управляемых через браузер, на тестах WebVoyager, Online-Mind2Web и WebArena. Также заявлены значительные успехи в управлении мобильными интерфейсами.

Модель оптимизирована для браузеров и работает итеративно: после каждого действия она получает новый скриншот и URL, пока задача не выполнена или пока система безопасности не остановит сессию.

Ранние интеграции внутри Google включают исследовательский Project Mariner и внутренние инструменты для восстановления UI-тестов. На публичных демо агент способен играть в простые веб-игры, открывать новости и заполнять формы без специальных API.

Безопасность и контроль

Google внедрила многоуровневую систему безопасности: встроенные ограничения в модели, внешний сервис оценки действий и системные инструкции, блокирующие рискованные сценарии - от покупок и операций с деньгами до попыток обхода CAPTCHA и управления устройствами. Разработчикам рекомендуют использовать песочницы, логировать шаги и просить явное подтверждение пользователя перед важными действиями.

Где доступно и сколько стоит

Gemini 2.5 Computer Use доступна в режиме предпросмотра через Gemini API - в Google AI Studio и Vertex AI. Цены совпадают с тарифами Gemini 2.5 Pro: вход - 1,25 доллара за 1 млн токенов (около 103 рублей), выход - 10 долларов за 1 млн токенов (около 820 рублей).

Зачем бизнесу и разработчикам

Автоматизация без API. Computer Use решает задачи, где нет готовых интеграций: сложные формы, личные кабинеты, устаревшие интерфейсы. Агент способен авторизоваться, заполнить поля, выбрать пункты в списках и подтвердить операцию, действуя как обученный сотрудник - но программно и в масштабе.

Тестирование UI. Команды QA могут «учить» агента воспроизводить сценарии регрессии и восстанавливать падения тестов. Внутри Google сообщают о значительном росте успешных перезапусков сценариев и снижении ручного труда.

Личные ассистенты и боты поддержки. Ранние партнёры отмечают ускорение сложных пользовательских сценариев - от обработки табличных данных до маршрутизации заявок.

На фоне растущей конкуренции с агентами OpenAI и Anthropic, ставка Google на «браузерный контроль» выглядит практичной: меньше зависимости от API, больше охват реального веба.

Контекст и ограничения

Сейчас модель фокусируется на браузере и не управляет настольной ОС - это отличает её от экспериментов конкурентов, но упрощает безопасность и внедрение. Параллельно Google развивает агентный режим в потребительских продуктах - от «Agent Mode» в приложении Gemini до Project Mariner, который умеет выполнять несколько задач одновременно и запоминает приёмы пользователя («Teach and Repeat»).

Исторический факт: Ещё в начале 2010-х автоматизация браузера строилась на инструментах вроде Selenium IDE. Переход к «визуальным» агентам, которые видят экран и рассуждают о нём, - это новый этап эволюции, сопоставимый с появлением CI/CD в разработке.
09:35
291
Google
Google — это глобальная технологическая компания, основанная 4 сентября 1998 года Ларри Пейджем и Сергеем Брином в Калифорнии.
Нет комментариев. Ваш будет первым!