Google представила новую модель Gemini 3.1 Flash TTS с аудио-тегами

Google представила новую модель синтеза речи Gemini 3.1 Flash TTS, которая позволяет управлять голосом прямо внутри текста. Ключевое нововведение — аудио-теги, превращающие генерацию речи в инструмент с точной настройкой эмоций и интонации.
Google представила новую модель Gemini 3.1 Flash TTS с аудио-тегами

15 апреля Google анонсировала Gemini 3.1 Flash TTS - обновлённую модель преобразования текста в речь. Разработчики сделали акцент не только на качестве звучания, но и на управляемости: теперь пользователь может задавать эмоции и стиль речи прямо в тексте. Главное нововведение - система аудио-тегов, которая превращает синтез речи в гибкий инструмент для создания озвучки.

Как работают аудио-теги

Аудио-теги - это специальные команды, встроенные в текст. Модель распознаёт их и меняет подачу речи в реальном времени.

Например:

  • [whisper] - шёпот
  • [yell] - крик
  • [sarcastic] - саркастичная интонация
  • [excited] - эмоциональная подача
  • [reflective] - спокойный, задумчивый тон
  • [laugh] - добавление смеха

Одна и та же фраза может звучать по-разному в зависимости от указанных тегов. Это даёт пользователю контроль над темпом, интонацией и настроением без дополнительной обработки аудио.

Модель интерпретирует текст как сценарий, а не просто как набор слов

В результате синтез речи становится ближе к актёрской игре, чем к механическому чтению.

Более естественная речь

Google отмечает, что Gemini 3.1 Flash TTS заметно улучшила качество звучания по сравнению с предыдущими версиями. Речь стала плавнее, интонации - точнее, а переходы между эмоциями - менее резкими. Это особенно важно для длинных сценариев, где требуется удерживать единый стиль подачи. Модель оптимизирована для работы в реальном времени, что позволяет использовать её в голосовых ассистентах и интерактивных сервисах.

Поддержка языков и сценариев

Gemini 3.1 Flash TTS поддерживает более 70 языков. При этом 24 языка прошли дополнительную оптимизацию качества - среди них японский, хинди и арабский.

Модель можно использовать в разных сценариях:

  • озвучка видео и презентаций
  • подкасты и обучающие материалы
  • голосовые интерфейсы и чат-боты
  • корпоративные решения

Это делает её универсальным инструментом как для индивидуальных авторов, так и для бизнеса.

Где доступна модель

На момент запуска Gemini 3.1 Flash TTS доступна в режиме preview через несколько платформ Google:

  • Gemini API
  • Google AI Studio
  • Vertex AI
  • интеграции с Google Vids

В AI Studio пользователи могут настраивать голоса, экспериментировать с тегами и сохранять собственные пресеты.

Защита от злоупотреблений

Каждый аудиофайл, созданный моделью, автоматически получает невидимую метку SynthID. Эта технология позволяет определить, что запись сгенерирована ИИ, и снижает риски использования синтезированной речи для дезинформации. С ростом качества голосовых моделей такие механизмы становятся обязательной частью инфраструктуры.

Новый уровень работы с голосом

Gemini 3.1 Flash TTS показывает, как меняется подход к синтезу речи. Теперь задача не ограничивается озвучкой текста - пользователь фактически управляет подачей, как режиссёр.

Это открывает новые сценарии для создания контента: от динамичных видео до полностью автоматизированных аудиоформатов с заданным настроением.

20:55
220
Нет комментариев. Ваш будет первым!