Google выпустила Gemini 3.1 Flash Live

Google открыла предварительный доступ к Gemini 3.1 Flash Live - модели для голосовых и мультимодальных ИИ-агентов, рассчитанной на общение в реальном времени. Компания делает ставку на снижение задержки, более естественную речь и устойчивую работу в шумной среде, то есть на те параметры, которые обычно и ломают впечатление от «живого» диалога с машиной.
Google выпустила Gemini 3.1 Flash Live

У Google появился новый инструмент для разработчиков, которым нужны голосовые интерфейсы без заметных пауз и с более естественной подачей речи. Компания 26 марта 2026 года запустила модель Gemini 3.1 Flash Live в режиме preview через Gemini Live API и Google AI Studio. Речь идёт о системе для приложений, которые должны не просто распознавать речь и изображение, но и отвечать в темпе обычного разговора.

На что делает ставку Google

В основе релиза - борьба с задержкой. Для голосовых интерфейсов это критично: лишние миллисекунды быстро превращают разговор в серию неловких пауз. Google прямо говорит, что новая модель стала шагом вперёд по задержке, надёжности и естественности диалога.

По описанию компании, Gemini 3.1 Flash Live лучше различает интонацию, акценты и намерение пользователя. Это важно не только для «приятного» общения, но и для практических сценариев, когда агент должен понять команду с первого раза, вызвать внешний инструмент и вернуть результат без сбоев.

По данным Google, модель поддерживает более 90 языков для мультимодального общения в реальном времени.

Что изменилось по сравнению с прежними версиями

Google выделяет четыре основных улучшения:

  • более высокий процент успешного выполнения задач в шумной среде;
  • лучшее следование сложным системным инструкциям;
  • более естественный диалог с низкой задержкой;
  • поддержка свыше 90 языков.

Самый интересный пункт здесь - работа в реальных условиях. Компания утверждает, что модель лучше отделяет полезную речь от фонового шума вроде телевизора или уличного трафика. Для голосовых помощников это не косметическое улучшение, а вполне прикладная вещь: именно на шуме чаще всего ломаются сценарии, связанные с командами, звонками и управлением внешними сервисами.

Отдельно Google сравнивает новинку с Gemini 2.5 Flash Native Audio и говорит, что Gemini 3.1 Flash Live эффективнее распознаёт акустические нюансы - высоту голоса, темп и другие особенности живой речи. Иначе говоря, модель должна звучать не просто быстрее, а правдоподобнее.

Где это уже используют

Google показывает релиз не в отрыве от практики, а на нескольких демонстрационных кейсах. Сервис Stitch применяет Live API для голосового «vibe design»: агент видит холст и выбранные экраны, после чего может критиковать макет, предлагать вариации и помогать с итерациями дизайна.

В другом примере устройство Ato для пожилых людей использует многоязычные возможности модели, чтобы превращать ежедневные разговоры в более устойчивое и естественное взаимодействие с пользователем. А команда Weekend встроила Gemini 3.1 Flash Live в ролевую игру Wit’s End, где важны характер подачи, темп речи и «человечность» ведущего.

Экосистема и практический смысл

Google подчёркивает, что Live API ориентирован на production-сценарии, но в реальных продуктах одного API мало. Поэтому компания отдельно указывает на партнёрские интеграции для задач вроде масштабирования через WebRTC и глобальной edge-маршрутизации. Это сигнал не только для стартапов, но и для крупных команд: Google продвигает не одиночную модель, а целую сборку для голосовых и видеоагентов.

С практической точки зрения релиз важен по двум причинам. Во-первых, рынок всё заметнее смещается от текстовых чат-ботов к агентам, которые слушают, видят и действуют в одном потоке. Во-вторых, конкуренция теперь идёт не только по качеству ответа, но и по ощущению «живого» контакта, а его определяют задержка, устойчивость к шуму и соблюдение инструкций. Именно в эти параметры Google и вложила главный смысл Gemini 3.1 Flash Live.

Модель уже доступна через Gemini API и Google AI Studio, а вместе с запуском Google открыла документацию, примеры и инструменты для разработчиков. Для отрасли это ещё один признак того, что голосовые интерфейсы постепенно переходят из формата демонстраций в более прикладной слой - там, где важны не вау-эффект, а стабильность, скорость и предсказуемое поведение.

20:10
347
Нет комментариев. Ваш будет первым!