Gemini Embedding 2 от Google: что умеет новая модель эмбеддингов и где её применять

На этой неделе Google выпустила Gemini Embedding 2 - первую для компании нативно мультимодальную модель эмбеддингов, которая сводит текст, изображения, видео, аудио и PDF в единое векторное пространство. Спустя несколько дней после анонса стало понятнее, почему этот релиз важен не только как очередное обновление линейки Gemini, но и как шаг к более практичному мультимодальному поиску, RAG-системам и корпоративной аналитике.
Gemini Embedding 2 от Google: что умеет новая модель эмбеддингов и где её применять

Google вывела в публичное превью модель gemini-embedding-2-preview - первую в своей экосистеме нативно мультимодальную модель эмбеддингов. Релиз состоялся 10 марта 2026 года, а доступ к модели открыли сразу через Gemini API и Vertex AI. 

Главное отличие от прежних подходов в том, что теперь текст, изображения, видео, аудио и PDF-документы преобразуются в одно общее семантическое пространство, где их можно сравнивать напрямую, без длинной цепочки промежуточных преобразований.

Для рынка это заметная история, хотя и не из разряда «срочных». Наоборот: спустя несколько дней после запуска стало лучше видно, где именно Gemini Embedding 2 может пригодиться на практике. Google прямо называет среди ключевых сценариев кросс-модальный поиск, поиск по документам, рекомендательные системы, классификацию и кластеризацию. Проще говоря, запрос «найди момент, где на видео человек показывает сломанный экран», «подбери похожий товар по фото и описанию» или «найди нужный PDF по смыслу, а не по ключевому слову» становится технически проще реализовать в одной связке, а не в нескольких разрозненных пайплайнах.

Почему релиз важен

До этого мультимодальные системы часто строились по схеме, где видео сначала расшифровывали в текст, изображения подписывали отдельной моделью, а затем всё это уже индексировали в векторной базе. Такой подход работал, но добавлял задержку, стоимость и риск потери смысла на промежуточных этапах. Gemini Embedding 2 пытается убрать этот «налог на перевод» между модальностями: модель умеет принимать смешанные входы, например изображение вместе с текстом, и строить эмбеддинг уже для их совместного контекста. Google также подчёркивает, что модель поддерживает более 100 языков.

Исторически рынок эмбеддингов долго оставался в первую очередь текстовым: именно текстовые векторы легли в основу семантического поиска, современных RAG-систем и рекомендаций. В этом смысле Gemini Embedding 2 выглядит не как «ещё одна модель», а как попытка перенести саму логику эмбеддингов в мультимодальную эпоху.

Google отдельно подчёркивает гибкость выхода: по умолчанию модель работает с векторами размерности 3072, но поддерживает диапазон от 128 до 3072. Компания рекомендует использовать 3072, 1536 или 768 измерений в зависимости от требований к качеству и затратам на хранение. Это важная деталь для продакшена: чем длиннее вектор, тем выше потенциальная точность, но тем заметнее нагрузка на векторное хранилище и индекс.

Что уже известно о возможностях и ограничениях

По официальной документации, модель принимает до 8192 входных токенов текста, до шести изображений за запрос, видео длительностью до 120 секунд, аудио без промежуточной транскрипции и PDF объёмом до шести страниц. Для разработчиков это одновременно и сильная сторона, и напоминание о компромиссах: крупные архивы, длинные ролики и большие документы по-прежнему придётся дробить на фрагменты перед индексацией. Иными словами, модель снимает часть инфраструктурной сложности, но не отменяет необходимости аккуратно проектировать пайплайн и чанкинг данных.

Именно здесь сегодня проходят основные линии спора вокруг Gemini Embedding 2. Сторонники модели видят в ней удобный способ заменить несколько отдельных систем одной мультимодальной основой. Скептики напоминают, что продукт пока находится в статусе public preview, а значит, корпоративным заказчикам всё равно придётся внимательно тестировать стабильность, стоимость массовой переиндексации и качество retrieval на своих данных, а не на демо-сценариях. Такой подход выглядит вполне здравым: модель обещает многое, но окончательный вывод о её зрелости рынок сделает уже после накопления продакшен-кейсов.

Где Gemini Embedding 2 выглядит особенно уместно

Наиболее убедительно новинка смотрится в трёх направлениях. 

  • Первое - мультимодальный RAG для компаний, где знания разбросаны по документам, скриншотам, видеоинструкциям, записям созвонов и изображениям. 
  • Второе - поиск и рекомендации в медиа- и e-commerce-сервисах, когда системе нужно сопоставлять фото, карточки товаров, обзоры и пользовательские запросы. 
  • Третье - архивы и поиск по внутренним базам знаний, где раньше приходилось держать несколько индексов под разные форматы данных. Google уже указывает, что модель можно использовать через LangChain, LlamaIndex, Haystack, Weaviate, Qdrant, ChromaDB и Vertex AI Vector Search, то есть интеграционный порог для разработчиков не выглядит слишком высоким.

Google также заявляет, что Gemini Embedding 2 задаёт новый ориентир по «глубине мультимодальности» и превосходит ряд ведущих моделей в текстовых, визуальных и видео-задачах. Это, разумеется, сильное маркетинговое заявление, и относиться к нему стоит осторожно до появления большего числа независимых сравнений. Но даже без споров о бенчмарках видно, что компания делает ставку не просто на качество поиска, а на упрощение архитектуры: меньше промежуточных моделей, меньше ручной склейки модальностей, меньше шансов потерять контекст между изображением, звуком и текстом.

Цена вопроса

В превью Gemini Embedding 2 тарифицируется по нескольким типам входных данных. В Vertex AI Google указывает следующие расценки: 

  • 0,2 доллара за 1 млн входных текстовых токенов, 
  • 0,00012 доллара за одно изображение, 
  • 0,00079 доллара за кадр видео 
  • 0,00016 доллара за секунду аудио. 

Сами выходные эмбеддинги отдельно не оплачиваются.

На первый взгляд тарифы выглядят умеренными, особенно для текстовых сценариев. Но итоговая стоимость в реальных проектах будет зависеть не столько от базовой цены, сколько от объёма медиаданных, частоты обновления индекса и необходимости переиндексации уже накопленных массивов.

В случае с корпоративными архивами, видеобазами, call-центрами и крупными документными хранилищами именно масштаб данных, а не номинальный тариф, станет главным фактором расходов.

В сухом остатке Gemini Embedding 2 - не «ещё один чат-бот» и не формальное расширение бренда Gemini, а инфраструктурный инструмент. Такие модели меняют сам подход к поиску, рекомендациям и системам работы со знаниями. Запуск пока ранний, ограничения у новинки вполне практические, но сам вектор развития рынка уже очевиден: текст, изображения, звук и видео всё хуже существуют по отдельности, а бизнесу нужен единый слой семантического поиска по всем форматам сразу.

20:05
276
Google
Google — это глобальная технологическая компания, основанная 4 сентября 1998 года Ларри Пейджем и Сергеем Брином в Калифорнии.
Нет комментариев. Ваш будет первым!