Google прокачал голосовой Gemini 2.5 Flash и запустил «живой» перевод речи в Translate

Google представила обновление модели Gemini 2.5 Flash Native Audio - это версия, заточенная под голосовые взаимодействия в реальном времени. По заявлению компании, новая итерация лучше справляется со сложными запросами, точнее следует инструкциям и увереннее держит контекст в многоходовых диалогах, то есть там, где обычные голосовые ассистенты чаще всего «ломаются» и начинают повторяться или отвечать мимо.
Обновление уже внедряют в продукты Google - в частности, в Gemini Live и Search Live. С практической точки зрения это означает более «живую» подачу: голосовые ответы становятся выразительнее и ближе к человеческой манере речи, что особенно важно для сценариев поддержки клиентов и сервисных диалогов.
Для разработчиков доступ открыли сразу по нескольким каналам: через Google AI Studio и Vertex AI, а также в предварительной версии через Gemini API. Google прямо позиционирует это как основу для бизнес-агентов - например, для контакт-центров, магазинов и сервисных служб, где голосовая часть должна быть не декоративной, а надежной.
Что именно улучшили в Gemini 2.5 Flash Native Audio
Google выделяет три ключевых направления прогресса. Во-первых, модель стала надежнее вызывать внешние инструменты и функции: в тесте ComplexFuncBench Audio заявлен результат 71,5%. Во-вторых, выросло следование инструкциям разработчика - до 90% против прежних 84%, то есть модель реже «съезжает» с заданного формата и чаще отвечает полно. В-третьих, подтянули качество многоходовых разговоров: удержание контекста и связность реплик, чтобы диалог не превращался в набор отдельных ответов.

Отдельно компания напоминает: ранее на неделе она также обновила текст-в-речь (TTS) в Gemini 2.5 Pro и Flash, добавив больше контроля над выразительностью, темпом и сценариями с несколькими говорящими. Это важная деталь - в реальных колл-центрах и «голосовых стойках» вопрос не только в том, что сказать, но и как это прозвучит.
Живой перевод речи в Google Translate с интонацией и темпом
Самая заметная «витрина» новых возможностей - бета-функция живого перевода речи в приложении Google Translate. Идея простая: человек говорит, а собеседник слышит перевод практически без пауз, причем перевод пытается сохранить высоту голоса, темп и интонацию оригинала (то, что обычно теряется и делает перевод «роботизированным»).
Заявлена поддержка более 70 языков и около 2000 пар перевода. Вариантов работы два: непрерывное прослушивание или двусторонний разговор - например, один говорит по-английски и слышит перевод на хинди, другой отвечает на хинди и получает перевод обратно. Функция умеет автоматически определять язык и должна быть устойчивой к шуму - это критично для улицы, аэропорта, кафе и любых «нестерильных» условий.
Бета-версию запускают на Android в США, Мексике и Индии; затем обещают расширение на iOS и другие регионы.
Кто уже использует технологию
Google приводит несколько примеров внедрения. В качестве оценки со стороны бизнеса звучит комментарий от Shopify - компании, которая много работает с продавцами и клиентским сервисом:
«Пользователи часто забывают, что общаются с ИИ уже через минуту использования Sidekick, а иногда даже благодарят бота после долгого разговора... Новые возможности Live API на базе Gemini 2.5 Flash Native Audio помогают нашим merchants побеждать», - отметил Дэвид Вуртц, вице-президент по продуктам Shopify.
Также упоминается кейс United Wholesale Mortgage: компания обработала свыше 14 тысяч кредитов с помощью голосового агента на Gemini. А стартап Newo.ai делает «голосовых рецепционистов», которые, по описанию, различают говорящих в шумной среде и переключают языки «на лету».



