Stability AI представляет революционную технологию генерации аудио Stable Audio

Компания «Stability AI» анонсировала революционную разработку в области генеративного искусственного интеллекта — технологию «Stable Audio», основанную на применении диффузионных моделей для синтеза аудио. Данное новшество открывает беспрецедентные возможности в управлении содержанием и длительностью создаваемых аудиофайлов.

Ранее существовавшие диффузионные модели, обученные на произвольных фрагментах аудио, зачастую не могли корректно сгенерировать звук заданной протяженности, что приводило к обрыванию музыкальных фраз. Другими словами, они могли начинаться и заканчиваться на неоконченной музыкальной ноте. «Stability AI» кардинально решает эту проблему, позволяя создавать музыку и аудио-фрагменты требуемой длины.

Ключевой особенностью архитектуры Stable Audio является использование сильно сжатого латентного представления аудиосигнала, что резко ускоряет процесс генерации по сравнению с обработкой «сырого» звука. Используя последние достижения в области диффузионной дискретизации, флагманская модель Stable Audio способна воспроизвести 95 секунд стереозвука с частотой дискретизации 44,1 кГц менее чем за одну секунду на графическом процессоре NVIDIA A100.

Ядро Stable Audio включает в себя вариационный автокодировщик, текстовый энкодер и диффузионную U-Net модель. Автокодировщик выполняет сжатие аудио в компактное шумоустойчивое представление, ускоряя генерацию и обучение. Текстовый энкодер, основанный на модели CLAP, извлекает семантические признаки из текстовых подсказок. Диффузионная U-Net модель, насчитывающая 907 млн параметров.

Для обучения флагманской модели Stable Audio, разработчики использовали базу данных, состоящий из более чем 800 000 аудиофайлов, содержащих музыку, звуковые эффекты, звуки отдельных инструментов, а также соответствующие текстовые метаданные, предоставленные в рамках договора с поставщиком стоковой музыки AudioSparx. В общей сложности база данных составляет более 19 500 часов аудиозаписей.

Stable Audio олицетворяет передовую исследовательскую мысль в области генерации аудио, реализованную лабораторией Harmonai от Stability AI. Команда продолжает совершенствовать архитектуры, датасеты и методы обучения моделей с целью повышения качества, управляемости, скорости генерации и расширения диапазона длительности трека.

Перейти в Stable Audio

Видео

генеративный ии аудио музыка stability ai stable audio

Читайте новости в Telegram

t.me/ v_neuro