Новая эра в генерации музыки: ACE-Step 1.5 вышла в ComfyUI

Открытая модель генерации музыки ACE-Step 1.5 получила интеграцию в ComfyUI и уже набирает популярность на рынке ИИ-аудио. Разработка позволяет создавать полноценные песни студийного уровня за секунды, работая локально и без облачных сервисов. Для независимых авторов и разработчиков это означает новый уровень доступности и контроля.
Новая эра в генерации музыки: ACE-Step 1.5 вышла в ComfyUI

Команды StepFun и ACE Studio представили обновлённую версию открытой модели генерации музыки ACE-Step 1.5, которая теперь официально интегрирована в ComfyUI. Речь идёт не просто об очередном апдейте, а о заметном технологическом сдвиге: модель способна генерировать коммерчески пригодные музыкальные треки за считанные секунды и делать это на обычных пользовательских видеокартах.

Скорость и требования

Одно из ключевых преимуществ ACE-Step 1.5 - экстремально высокая скорость генерации. На видеокарте уровня RTX 5090 четырёхминутная композиция создаётся примерно за одну секунду. Даже на RTX 3090 процесс занимает менее десяти секунд. При этом модель укладывается в объём менее 4 ГБ видеопамяти, что делает её доступной для гораздо более широкого круга пользователей, чем большинство современных ИИ-аудиосистем.

Принципиально важно и то, что ACE-Step 1.5 работает полностью локально. Данные не отправляются в облако, исходные тексты и музыкальные идеи остаются на стороне пользователя. Для независимых музыкантов и студий это означает не только конфиденциальность, но и отсутствие подписок, лимитов и скрытых ограничений.

Архитектура

В основе ACE-Step 1.5 лежит комбинированная архитектура. Языковая модель отвечает за «планирование» песни: структуру, текст, куплеты, припевы и общую драматургию. Диффузионный трансформер (DiT) занимается непосредственно синтезом аудио. Такая связка позволяет модели уверенно работать с длинными композициями, не теряя связности.

Для этого используется механизм Chain-of-Thought, обеспечивающий логическую целостность трека от начала до конца. Ускорение генерации достигается за счёт дистилляции распределения второго поколения (DMD2), а внутреннее обучение с подкреплением избавляет модель от зависимости от внешних систем вознаграждения и связанных с ними искажений. Отдельно стоит отметить аудиотокенизатор, который обучается параллельно с DiT, что даёт более точное соответствие между «замыслом» и итоговым звучанием.

Качество и языковая поддержка

По результатам внутренних и открытых бенчмарков ACE-Step 1.5 получила оценку 4,72 балла за связность музыкального материала, что ставит её выше большинства коммерческих решений в этом сегменте. Модель поддерживает более 50 языков, включая русский, и демонстрирует высокую точность следования текстовым промптам.

Пользователь может задавать стиль композиции с помощью тегов - жанр, инструменты, темп, настроение, тип вокала - а также явно размечать структуру текста через маркеры [verse], [chorus], [bridge]. Такой подход делает генерацию управляемой и предсказуемой, что особенно важно при коммерческом использовании.

Персонализация и будущие функции

Для тонкой настройки под конкретный стиль предусмотрен LoRA-файн-тюнинг. Достаточно нескольких собственных треков, чтобы адаптировать модель под нужное звучание. Процесс занимает около часа на RTX 3090 и не требует сложной инфраструктуры.

Разработчики уже анонсировали дальнейшие улучшения. Среди них - функция создания каверов, когда существующий трек переосмысливается в новом стиле, и режим repaint, позволяющий перегенерировать отдельные фрагменты композиции без затрагивания остального материала.

Как начать работу

Для запуска ACE-Step 1.5 в ComfyUI достаточно обновить платформу до актуальной версии, открыть библиотеку шаблонов, перейти в раздел Audio и выбрать соответствующий workflow.

Модель можно загрузить автоматически или вручную с Hugging Face или потестировать в облаке Hugging Face Space. Разработчики советуют начинать с длительности 90–120 секунд, использовать batch_size 8 или 16 и выбирать лучший вариант из нескольких генераций. Для ознакомления доступен и Comfy Cloud.

Открытость как принцип

ACE-Step 1.5 распространяется под лицензией MIT, что подчёркивает ориентацию на сообщество и совместное развитие. На фоне закрытых облачных сервисов это выглядит осознанным шагом в сторону демократизации музыкального ИИ.

В результате генерация музыки перестаёт быть привилегией крупных студий и становится рабочим инструментом для энтузиастов, инди-артистов и разработчиков. Скорость, качество и открытость складываются в редкое сочетание, которое уже сейчас формирует новый музыкальный ландшафт.

11:35
438
Нет комментариев. Ваш будет первым!