Google представила новую модель Gemini 3.1 Flash TTS с аудио-тегами

15 апреля Google анонсировала Gemini 3.1 Flash TTS - обновлённую модель преобразования текста в речь. Разработчики сделали акцент не только на качестве звучания, но и на управляемости: теперь пользователь может задавать эмоции и стиль речи прямо в тексте. Главное нововведение - система аудио-тегов, которая превращает синтез речи в гибкий инструмент для создания озвучки.
Как работают аудио-теги
Аудио-теги - это специальные команды, встроенные в текст. Модель распознаёт их и меняет подачу речи в реальном времени.
Например:
- [whisper] - шёпот
- [yell] - крик
- [sarcastic] - саркастичная интонация
- [excited] - эмоциональная подача
- [reflective] - спокойный, задумчивый тон
- [laugh] - добавление смеха
Одна и та же фраза может звучать по-разному в зависимости от указанных тегов. Это даёт пользователю контроль над темпом, интонацией и настроением без дополнительной обработки аудио.
Модель интерпретирует текст как сценарий, а не просто как набор слов
В результате синтез речи становится ближе к актёрской игре, чем к механическому чтению.
Более естественная речь
Google отмечает, что Gemini 3.1 Flash TTS заметно улучшила качество звучания по сравнению с предыдущими версиями. Речь стала плавнее, интонации - точнее, а переходы между эмоциями - менее резкими. Это особенно важно для длинных сценариев, где требуется удерживать единый стиль подачи. Модель оптимизирована для работы в реальном времени, что позволяет использовать её в голосовых ассистентах и интерактивных сервисах.
Поддержка языков и сценариев
Gemini 3.1 Flash TTS поддерживает более 70 языков. При этом 24 языка прошли дополнительную оптимизацию качества - среди них японский, хинди и арабский.
Модель можно использовать в разных сценариях:
- озвучка видео и презентаций
- подкасты и обучающие материалы
- голосовые интерфейсы и чат-боты
- корпоративные решения
Это делает её универсальным инструментом как для индивидуальных авторов, так и для бизнеса.
Где доступна модель
На момент запуска Gemini 3.1 Flash TTS доступна в режиме preview через несколько платформ Google:
- Gemini API
- Google AI Studio
- Vertex AI
- интеграции с Google Vids
В AI Studio пользователи могут настраивать голоса, экспериментировать с тегами и сохранять собственные пресеты.
Защита от злоупотреблений
Каждый аудиофайл, созданный моделью, автоматически получает невидимую метку SynthID. Эта технология позволяет определить, что запись сгенерирована ИИ, и снижает риски использования синтезированной речи для дезинформации. С ростом качества голосовых моделей такие механизмы становятся обязательной частью инфраструктуры.
Новый уровень работы с голосом
Gemini 3.1 Flash TTS показывает, как меняется подход к синтезу речи. Теперь задача не ограничивается озвучкой текста - пользователь фактически управляет подачей, как режиссёр.
Это открывает новые сценарии для создания контента: от динамичных видео до полностью автоматизированных аудиоформатов с заданным настроением.


