Google представила Agentic Vision для Gemini 3 Flash - ИИ-революция в компьютерном зрении

27 января 2026 года компания Google анонсировала Agentic Vision - новую агентную возможность для своей модели Gemini 3 Flash, которая превращает анализ изображений из разового «статичного взгляда» в пошаговое активное исследование с визуальным обоснованием ответов, совмещая визуальное мышление с исполнением кода.
Как работает Agentic Vision
В основе Agentic Vision лежит агентовый цикл, разительно отличающийся от классического одноразового восприятия изображений:
- Think (Думай) - модель анализирует запрос пользователя и исходное изображение, формируя многошаговый план исследования.
- Act (Действуй) - на основе плана Gemini 3 Flash генерирует и выполняет Python-код, который манипулирует изображением или вычисляет необходимые данные (например, обрезка, поворот, аннотирование или вычисления).
- Observe (Наблюдай) - результаты обработки добавляются в контекст модели, что позволяет ей глубже изучить изображение и основанно сформировать окончательный ответ.

Благодаря этой методике модель не просто «угадывает», а объясняет свои выводы с визуальной доказательственной базой, что особенно важно при работе с мелкими деталями (номерными знаками, текстом, графиками и пр.).
Повышение качества и новый подход
Традиционные модели компьютерного зрения обрабатывают изображение один раз: если важная деталь осталась вне поля внимания, модель склонна «догадаться», что нередко приводит к ошибкам. Новая возможность Agentic Vision позволяет активно уточнять детали, что обеспечивает 5–10 % стабильного прироста качества по большинству бенчмарков компьютерного зрения.
Реальные сценарии использования
Детальный анализ и увеличение
Agentic Vision может автоматически фокусироваться на мелких объектах. В одном из примеров платформу используют для проверки строительных планов: модель поэтапно генерирует код для обрезки и анализа различных участков чертежей, что повышает точность проверок.
Аннотирование и визуальное объяснение
Помимо описания, система может аннотировать изображение прямо в коде - например, при подсчёте элементов она рисует рамки и метки, чтобы визуально подтвердить свои решения.
Визуальная математика и графики
Agentic Vision способен распознавать сложные таблицы и автоматически генерировать код для визуализации данных (например, с помощью библиотек для построения графиков). Это заметно повышает надёжность сложных вычислений и визуальной аналитики по сравнению с традиционными подходами.
Доступность и развитие
Функция Agentic Vision уже доступна через Gemini API в Google AI Studio и Vertex AI, а также начинает появляться в приложении Gemini (с выбором модели «Thinking»). Разработчики могут опробовать демо-версию в Google AI Studio, активировав опцию «Code Execution».
Google также объявила планы развития технологии:
- расширить перечень полностью имплицитных действий без явных подсказок (например, автоматический поворот изображений);
- добавить дополнительные инструменты, в том числе веб-поиск и обратный поиск изображений для ещё более обоснованного анализа;
- распространить возможности Agentic Vision на другие размеры моделей помимо Flash.
Возможные вызовы и перспективы
Переход к агентному анализу открывает новые возможности, но и ставит вопросы о том, как такие системы будут интегрированы в существующие рабочие процессы. Ключевыми станут вопросы эффективности генерации кода, интерпретируемости действий модели и безопасности исполнения в индустриальных приложениях.
Тем не менее, внедрение Agentic Vision - это большой шаг к ИИ, который не просто понимает изображение, а способен исследовать и обосновывать своё понимание на основе шагов, понятных человеку.


