SpeechLab запускает CosyVoice 3 с улучшенной генерацией речи

SpeechLab компании Alibaba Group представила CosyVoice 3 — передовую модель синтеза речи, поддерживающую русский язык и 18 китайских диалектов. Новая разработка обещает улучшенное качество звука и естественность интонаций для диалогов и аудиокниг.
SpeechLab запускает CosyVoice 3 с улучшенной генерацией речи

Лаборатория SpeechLab, входящая в Alibaba Group, выпустила CosyVoice 3 — усовершенствованную модель синтеза речи. Она поддерживает девять языков, включая русский, и восемнадцать китайских диалектов. Разработка ориентирована на создание реалистичной речи для голосовых ассистентов, озвучивания контента и интерактивных диалогов, предлагая высокую естественность и точность.

Масштаб данных и инновации

Модель обучена на одном миллионе часов аудиоданных, что в сто раз больше, чем у предыдущей версии. Это позволяет ей точно воспроизводить текст и передавать интонации, характерные для разных языков и стилей речи. Например, она может имитировать голос конкретного человека, сохраняя его уникальные особенности, что полезно для озвучивания аудиокниг или подкастов.

Ключевой особенностью стал новый токенизатор речи, основанный на многоязычной модели распознавания. Он учитывает эмоции, акценты и даже фоновые звуки, обеспечивая естественное звучание.

«Наша цель — сделать синтезированную речь неотличимой от человеческой», — отметили в SpeechLab.

Применение в реальных условиях

CosyVoice 3 поддерживает потоковый синтез речи с задержкой всего 150 миллисекунд. Это делает её идеальной для приложений, требующих мгновенной реакции, таких как голосовые чаты или синхронный перевод. Модель способна передавать эмоции и стили речи, например, имитировать голоса персонажей мультфильмов, что может быть востребовано в индустрии развлечений.

Интересный факт: в 1980-х годах первые системы синтеза речи использовались для автоматизации справочных служб, но их монотонное звучание сильно уступало современным технологиям. CosyVoice 3 демонстрирует, насколько далеко шагнул прогресс в этой области.

Доступность и перспективы

Модель доступна для тестирования на платформах Hugging Face и Modelscope, а её код открыт на GitHub. Это позволяет разработчикам интегрировать её в свои проекты, от голосовых помощников до профессионального озвучивания.

«CosyVoice 3 открывает новые возможности для создания интерактивных и эмоциональных голосовых решений», — заявили в SpeechLab.

Разработка уже привлекла внимание специалистов по голосовым технологиям. Её внедрение может изменить подход к созданию контента, сделав синтезированную речь более доступной и качественной.

18:40
111
Нет комментариев. Ваш будет первым!
Яндекс.Метрика