Stability AI представляет революционную технологию генерации аудио Stable Audio

​Компания «Stability AI» анонсировала революционную разработку в области генеративного искусственного интеллекта — технологию «Stable Audio», основанную на применении диффузионных моделей для синтеза аудио. Данное новшество открывает беспрецедентные возможности в управлении содержанием и длительностью создаваемых аудиофайлов.
Stability AI представляет революционную технологию генерации аудио Stable Audio

Ранее существовавшие диффузионные модели, обученные на произвольных фрагментах аудио, зачастую не могли корректно сгенерировать звук заданной протяженности, что приводило к обрыванию музыкальных фраз. Другими словами, они могли начинаться и заканчиваться на неоконченной музыкальной ноте. «Stability AI» кардинально решает эту проблему, позволяя создавать музыку и аудио-фрагменты требуемой длины.

Ключевой особенностью архитектуры Stable Audio является использование сильно сжатого латентного представления аудиосигнала, что резко ускоряет процесс генерации по сравнению с обработкой «сырого» звука. Используя последние достижения в области диффузионной дискретизации, флагманская модель Stable Audio способна воспроизвести 95 секунд стереозвука с частотой дискретизации 44,1 кГц менее чем за одну секунду на графическом процессоре NVIDIA A100.

Ядро Stable Audio включает в себя вариационный автокодировщик, текстовый энкодер и диффузионную U-Net модель. Автокодировщик выполняет сжатие аудио в компактное шумоустойчивое представление, ускоряя генерацию и обучение. Текстовый энкодер, основанный на модели CLAP, извлекает семантические признаки из текстовых подсказок. Диффузионная U-Net модель, насчитывающая 907 млн параметров.

Для обучения флагманской модели Stable Audio, разработчики использовали базу данных, состоящий из более чем 800 000 аудиофайлов, содержащих музыку, звуковые эффекты, звуки отдельных инструментов, а также соответствующие текстовые метаданные, предоставленные в рамках договора с поставщиком стоковой музыки AudioSparx. В общей сложности база данных составляет более 19 500 часов аудиозаписей.

Stable Audio олицетворяет передовую исследовательскую мысль в области генерации аудио, реализованную лабораторией Harmonai от Stability AI. Команда продолжает совершенствовать архитектуры, датасеты и методы обучения моделей с целью повышения качества, управляемости, скорости генерации и расширения диапазона длительности трека.

Видео
15:25
110
Нет комментариев. Ваш будет первым!
Посещая этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.