OpenAudio S1: новая TTS-модель с эмоциями и поддержкой 12 языков

Компания Fish Audio представила OpenAudio S1 — передовую модель преобразования текста в речь, которая умеет передавать эмоции и акценты на 12 языках, включая русский. Обученная на 2 миллионах часов аудио, эта технология обещает революцию в озвучке игр, подкастов и образовательных платформ.
OpenAudio S1: новая TTS-модель с эмоциями и поддержкой 12 языков

Fish Audio, известная своими разработками в области AI-аудио, запустила модель OpenAudio S1 — новое слово в технологиях синтеза речи. Эта система способна создавать естественную и выразительную речь, которая идеально передаёт эмоции и интонации, практически не отличаясь от человеческого голоса.

Модель была представлена 3 июня 2025 года и уже успела занять первое место в рейтинге TTS-Arena2, обойдя конкурентов по качеству.

Техническая мощь и возможности

OpenAudio S1 построена на архитектуре Qwen3 и включает 4 миллиарда параметров в своей старшей версии. Для обучения использовался массив данных объёмом 2 миллиона часов аудиозаписей, что позволило достичь высокой точности: Word Error Rate (WER) составляет всего 0.008, а Character Error Rate (CER) — 0.004 для английского языка.

Для оптимизации качества применена технология RLHF (Reinforcement Learning with Human Feedback), а за кодирование звука отвечает усовершенствованный кодек, схожий с Descript Audio Codec, но адаптированный для более точной работы с эмоциями.

Модель поддерживает 12 языков, среди которых русский, английский, китайский, японский, немецкий и другие. Это делает её универсальным решением для мультиязычных проектов. 

Особенно впечатляет возможность точного контроля интонаций: S1 умеет передавать широкий спектр эмоций — от гнева и радости до грусти и сарказма, а также воспроизводить шепот, смех, вздохи и даже звуки толпы.

Две версии для разных задач

OpenAudio S1 представлена в двух вариантах:

  • Полноценная версия S1 (4B параметров) доступна через платформу Fish Audio Playground по цене $0.8 за час синтеза. Это одно из самых доступных предложений на рынке, если верить данным Artificial Analytics.

  • Облегчённая версия S1-mini (0.5B параметров) выложена на HuggingFace для некоммерческого использования под лицензией CC-BY-NC-SA-4.0. Её показатели чуть ниже (WER: 0.011, CER: 0.005), но она всё равно обеспечивает высокое качество для своего уровня.

Где применять OpenAudio S1?

Модель открывает множество возможностей для применения:

  • В игровой индустрии — для создания реалистичных диалогов персонажей.

  • В образовании — для озвучки учебных материалов на разных языках.

  • В клиентской поддержке — для улучшения голосовых чат-ботов.

  • В медиа — для записи аудиокниг, подкастов и видеоконтента.

Благодаря низкой задержке (менее 100 миллисекунд) S1 идеально подходит для реал-тайм приложений, таких как онлайн-игры или стримы, где важна мгновенная генерация речи.

Контекст и перспективы

Запуск OpenAudio S1 происходит на фоне роста интереса к TTS-технологиям. Конкуренты, такие как ElevenLabs, также делают ставку на выразительность речи, но S1 выделяется благодаря поддержке 12 языков и доступной цене. Например, стоимость $0.8 за час синтеза делает её более экономичным решением по сравнению с другими платными сервисами.

Но всё же есть и нюансы: старшая версия доступна только через платный сервис, что может ограничить её использование для некоторых пользователей. В то же время бесплатная S1-mini на HuggingFace — отличный вариант для исследователей и разработчиков, хотя её лицензия ограничивает коммерческое применение.

Fish Audio также анонсировала планы по созданию STT-модели (речь-в-текст), которая сможет распознавать эмоции и интонации, что в будущем может дополнить возможности S1, создав полноценный цикл работы с аудио.

Шаг вперёд для AI-аудио

OpenAudio S1 задаёт новые стандарты в синтезе речи, предлагая естественное звучание, поддержку эмоций и мультиязычность. Это решение может стать настоящей находкой для разработчиков игр, создателей контента и образовательных платформ. Несмотря на ограничения бесплатной версии, модель уже сейчас выглядит как сильный игрок на рынке, и её дальнейшее развитие обещает ещё больше возможностей.

15:50
251
Нет комментариев. Ваш будет первым!
Яндекс.Метрика