Google представила Agentic Vision для Gemini 3 Flash - ИИ-революция в компьютерном зрении

Google внедряет принцип циклического агентного анализа изображений в свою мультимодальную модель Gemini 3 Flash, позволяя ей не просто видеть кадр, а активно исследовать, обрабатывать и манипулировать визуальными данными с помощью сгенерированного Python-кода. Это существенно повышает точность ответов и открывает новые практические сценарии.
Google представила Agentic Vision для Gemini 3 Flash - ИИ-революция в компьютерном зрении

27 января 2026 года компания Google анонсировала Agentic Vision - новую агентную возможность для своей модели Gemini 3 Flash, которая превращает анализ изображений из разового «статичного взгляда» в пошаговое активное исследование с визуальным обоснованием ответов, совмещая визуальное мышление с исполнением кода.

Как работает Agentic Vision

В основе Agentic Vision лежит агентовый цикл, разительно отличающийся от классического одноразового восприятия изображений:

  1. Think (Думай) - модель анализирует запрос пользователя и исходное изображение, формируя многошаговый план исследования.
  2. Act (Действуй) - на основе плана Gemini 3 Flash генерирует и выполняет Python-код, который манипулирует изображением или вычисляет необходимые данные (например, обрезка, поворот, аннотирование или вычисления).
  3. Observe (Наблюдай) - результаты обработки добавляются в контекст модели, что позволяет ей глубже изучить изображение и основанно сформировать окончательный ответ.

Благодаря этой методике модель не просто «угадывает», а объясняет свои выводы с визуальной доказательственной базой, что особенно важно при работе с мелкими деталями (номерными знаками, текстом, графиками и пр.).

Повышение качества и новый подход

Традиционные модели компьютерного зрения обрабатывают изображение один раз: если важная деталь осталась вне поля внимания, модель склонна «догадаться», что нередко приводит к ошибкам. Новая возможность Agentic Vision позволяет активно уточнять детали, что обеспечивает 5–10 % стабильного прироста качества по большинству бенчмарков компьютерного зрения.

Реальные сценарии использования

Детальный анализ и увеличение

Agentic Vision может автоматически фокусироваться на мелких объектах. В одном из примеров платформу используют для проверки строительных планов: модель поэтапно генерирует код для обрезки и анализа различных участков чертежей, что повышает точность проверок.

Аннотирование и визуальное объяснение

Помимо описания, система может аннотировать изображение прямо в коде - например, при подсчёте элементов она рисует рамки и метки, чтобы визуально подтвердить свои решения.

Визуальная математика и графики

Agentic Vision способен распознавать сложные таблицы и автоматически генерировать код для визуализации данных (например, с помощью библиотек для построения графиков). Это заметно повышает надёжность сложных вычислений и визуальной аналитики по сравнению с традиционными подходами.

Доступность и развитие

Функция Agentic Vision уже доступна через Gemini API в Google AI Studio и Vertex AI, а также начинает появляться в приложении Gemini (с выбором модели «Thinking»). Разработчики могут опробовать демо-версию в Google AI Studio, активировав опцию «Code Execution».

Google также объявила планы развития технологии:

  • расширить перечень полностью имплицитных действий без явных подсказок (например, автоматический поворот изображений);
  • добавить дополнительные инструменты, в том числе веб-поиск и обратный поиск изображений для ещё более обоснованного анализа;
  • распространить возможности Agentic Vision на другие размеры моделей помимо Flash.

Возможные вызовы и перспективы

Переход к агентному анализу открывает новые возможности, но и ставит вопросы о том, как такие системы будут интегрированы в существующие рабочие процессы. Ключевыми станут вопросы эффективности генерации кода, интерпретируемости действий модели и безопасности исполнения в индустриальных приложениях.

Тем не менее, внедрение Agentic Vision - это большой шаг к ИИ, который не просто понимает изображение, а способен исследовать и обосновывать своё понимание на основе шагов, понятных человеку.

20:10
217
Нет комментариев. Ваш будет первым!