StabilityAI выкатила новую модель Stable Cascade в тестовой версии

StabilityAI представила диффузионную модель преобразования текста в изображение Stable Cascade в предварительной тестовой версии, построенную на архитектуре Würstchen. Эта модель выпускается под некоммерческой лицензией.

Эта модель построена на архитектуре Würstchen, и ее главное отличие от других моделей, таких как Stable Diffusion, заключается в том, что она работает в гораздо меньшем скрытом пространстве. Почему это важно? Чем меньше скрытое пространство, тем быстрее вы можете выполнять логический вывод и тем дешевле становится обучение.

По заявлению разработчиков, Stable Cascade исключительно легко обучать и настраивать на потребительском оборудовании благодаря трехэтапному подходу.

В дополнение к предоставлению контрольных точек и скриптов вывода, выпустили скрипты для тонкой настройки, обучения ControlNet и LoRA, чтобы пользователи могли и дальше экспериментировать с этой новой архитектурой, которые можно найти на странице Stability GitHub.

Кратко о модели

Stable Cascade - диффузионная модель для генерации изображений по текстовому запросу.
Модель состоит из трех моделей: Stage A, Stage B и Stage C, обеспечивающих каскад для генерации изображений.
Stable Cascade использует более высокое сжатие изображений, достигая коэффициента сжатия 42.
Это обеспечивает более дешевое обучение и вывод, а также точную декодировку изображений.
Этап C отвечает за генерацию скрытых значений 24 x 24, выдаваемых в текстовом приглашении.
Модель предназначена для исследовательских целей и может быть использована в различных областях и задачах исследований.
Модель не обучена создавать фактические или правдивые изображения людей или событий, и ее использование для создания такого контента выходит за рамки возможностей.
Модель не должна использоваться каким-либо образом, нарушающим Политику допустимого использования Stabilityai.

Видео

Читайте новости в Telegram

t.me/ v_neuro