Stability AI выпустила Stable Audio 3.0 с открытыми весами и генерацией треков до 6 минут

Stability AI выпустила Stable Audio 3.0 - новое семейство моделей для генерации музыки и звуковых эффектов. В линейку вошли четыре модели, три из них доступны с открытыми весами, а старшая Large работает через API и корпоративное размещение. Главный акцент релиза — треки до 6 минут 20 секунд, работа малых моделей на пользовательских устройствах и лицензированные обучающие данные.
Stability AI выпустила Stable Audio 3.0 с открытыми весами и генерацией треков до 6 минут

Stability AI объявила Stable Audio 3.0 - семейство генеративных аудиомоделей для музыки, звуковых эффектов и редактирования аудио. Релиз состоялся 20 мая 2026 года. Компания позиционирует его как основу для экспериментов с генеративным звуком: часть моделей можно скачать и дорабатывать, старшая версия остаётся в API и корпоративном контуре.

В линейку вошли четыре варианта. 

  1. Stable Audio 3.0 Small SFX генерирует звуковые эффекты и рассчитана на запуск на телефонах и обычных ноутбуках. 
  2. Stable Audio 3.0 Small предназначена для полной музыкальной композиции на устройстве.
  3. Stable Audio 3.0 Medium делает более длинные треки с заявленной лучшей музыкальностью, структурой и фразировкой. 
  4. Stable Audio 3.0 Large - старшая модель для музыкальных платформ и приложений, которым нужны низкая задержка и большой объём генераций.

Малые модели работают локально, Medium и Large дают длинные треки

Stable Audio 3.0 Small SFX и Stable Audio 3.0 Small генерируют аудио до двух минут. Для открытой аудиомодели это заметный шаг: прежняя Stable Audio Open Small ограничивалась 11 секундами, а Stable Audio Open - 47 секундами.

Medium и Large рассчитаны на треки до 6 минут 20 секунд. В исследовательской статье Stability AI указывает, что Small Music и Small SFX имеют по 459 млн параметров, Medium - 1,4 млрд, Large - 2,7 млрд. Все модели работают со стерео 44,1 кГц.

Техническая ставка сделана на variable-length generation: модель генерирует аудио нужной длины, а не просчитывает максимальную длительность с пустыми участками. Для пользователя это звучит сухо, но сценарий понятный: короткий звук интерфейса, восьмисекундный луп и шестиминутная композиция не должны требовать одного и того же вычислительного бюджета.

Открытые веса есть у трёх моделей

Stable Audio 3.0 Small SFX, Small и Medium доступны на Hugging Face с открытыми весами. Их можно запускать локально, встраивать в собственные процессы и дообучать под свои аудиобиблиотеки через LoRA. Stability AI впервые публикует документацию по LoRA-обучению для Stable Audio вместе с весами Small и Medium.

Stable Audio 3.0 Large не выложена с открытыми весами. Её можно использовать через Stability AI API, stableaudio.com или в корпоративном self-hosting-формате. В тарифной странице API указана цена 26 кредитов за успешную генерацию; у Stability AI один кредит равен $0,01. Для крупных клиентов условия могут отличаться.

Такое разделение показывает коммерческую логику релиза. Открытые веса нужны для сообщества и разработчиков, Large оставлена как продуктовая модель для платформ, где важны стабильность, поддержка и юридическое покрытие.

Редактирование треков не ограничивается генерацией с нуля

Stable Audio 3.0 поддерживает text-to-audio, audio-to-audio и audio inpainting. Пользователь может сгенерировать звук по описанию, преобразовать загруженный фрагмент или заменить часть дорожки без полной пересборки композиции.

Inpainting работает для одного сегмента, нескольких сегментов и продолжения записи после исходной точки. Практический сценарий: убрать слабый кусок в середине трека, продлить короткий музыкальный набросок, заменить ударный элемент или сделать новую версию звукового эффекта без повторного промпта для всей дорожки.

Здесь Stability AI уходит от простой витрины «напиши текст - получи песню». Для музыкантов и звукорежиссёров важнее контроль после первой генерации: первая версия почти никогда не становится финальной.

Лицензированные данные стали частью позиционирования

Stability AI отдельно подчёркивает, что Stable Audio 3.0 обучалась на полностью лицензированных данных. По Community License пользователи владеют результатами генерации и могут распространять их, включая коммерческое использование. Для организаций с годовой выручкой выше $1 млн нужна Enterprise License; она даёт коммерческое покрытие и, по заявлению компании, юридическую защиту.

Этот блок в анонсе выглядит не менее важным, чем технические характеристики. Рынок генеративной музыки остаётся юридически напряжённым: Suno и Udio сталкиваются с претензиями правообладателей, а музыкальные лейблы всё внимательнее смотрят на происхождение обучающих данных. Stability AI явно пытается занять позицию «безопасной» аудиомодели для коммерческих продуктов.

Первые кейсы: ComfyUI, демо-треки и звуковые эффекты

Публичные кейсы Stable Audio 3.0 пока в основном демонстрационные. На странице модели Stability AI показывает примеры вроде acid jazz-трека в духе 1980-х. ComfyUI объявила поддержку Stable Audio 3.0 в день релиза и опубликовала рабочие процессы для генерации музыки, инструментальных лупов, звуковых эффектов и коротких one-shot звуков.

В примерах ComfyUI есть lo-fi hip-hop на 150 секунд, synthwave-трек на 180 секунд, короткий гитарный луп, шаги по гравию, пролёт автомобиля с эффектом Доплера и отдельные ударные или басовые звуки. Это пока не клиентские внедрения, а ранняя демонстрация сценариев: музыка для черновиков, звуки для игр и видео, быстрые атмосферные дорожки, библиотека коротких сэмплов.

Публичных кейсов с конкретными музыкантами, студиями или брендами Stability AI на момент подготовки материала не раскрыла. Компания лишь сообщает, что работает над набором новых продуктов для музыкантов и открыла список ожидания для раннего доступа.

Успех релиза будет зависеть от качества контроля

Stable Audio 3.0 выглядит сильнее прежних открытых аудиомоделей по длительности, доступности весов и юридической упаковке. Слабое место пока прежнее для всей категории: музыкальная генерация оценивается не только по длине трека, а по управляемости, повторяемости результата и возможности довести материал до продакшена.

Главный тест для моделей начнётся после первых независимых экспериментов. Если разработчики и музыканты смогут получать не разовые удачные демо, а управляемые версии, лупы, правки и продолжения треков, релиз станет заметным для рынка. Если модель останется генератором красивых примеров, её ценность будет ближе к витрине, чем к рабочему инструменту.

20:00
176
Нет комментариев. Ваш будет первым!