Luma Labs представила модель Uni-1 которая думает и рисует одновременно

23 марта компания Luma Labs AI объявила о запуске новой генеративной модели Uni-1. Это первая система, в которой понимание запроса и создание изображения происходят одновременно, без разделения на отдельные этапы. Разработчики уже открыли доступ к тестированию на собственной платформе.
Главное отличие Uni-1 - архитектура Unified Intelligence. Она позволяет модели не просто реагировать на текстовые команды, а разбираться в намерениях пользователя и корректировать результат прямо в процессе генерации. По сути, система «размышляет» вместе с человеком, что заметно влияет на итоговое качество изображений.
Как устроена новая архитектура
В основе Uni-1 лежит автогенеративный трансформер decoder-only - тот же принцип, что используется в больших языковых моделях. Однако здесь текст и визуальные данные объединены в единую последовательность токенов. Это означает, что модель не делит процесс на «понимание» и «рисование», а всё происходит в одном вычислительном проходе.
В отличие от диффузионных моделей, которые начинают с шума и постепенно его очищают, Uni-1 предсказывает результат шаг за шагом. Она генерирует как слова, так и элементы изображения последовательно, одновременно проверяя логичность сцены, освещение и физику объектов.
По сути, модель работает как художник, который не просто рисует, а постоянно задаёт себе вопросы: «А правильно ли падает тень?», «Соответствует ли перспектива?» и сразу вносит правки.
Пространственное мышление и логика
Одной из ключевых особенностей Uni-1 стало развитое пространственное мышление. Модель умеет достраивать сцены, учитывать взаимное расположение объектов и сохранять физическую правдоподобность.
Например, при редактировании изображения она корректно пересчитывает освещение, перспективу и взаимодействие элементов. Это особенно важно для сложных композиций, где традиционные модели часто допускают ошибки.
По данным внутренних тестов, Uni-1 показывает высокие результаты в задачах, требующих логики и последовательного анализа. В частности, она лидирует в бенчмарке RISEBench, ориентированном на визуальное редактирование с учётом рассуждений.
Работа с референсами
Модель получила продвинутые инструменты управления через эталонные изображения. Пользователь может загрузить фотографию, эскиз или любой визуальный пример, а Uni-1 сохранит стиль, композицию и ключевые детали при генерации нового контента.
Это открывает возможности для создания серий изображений в едином стиле, редактирования существующих работ и точного контроля результата без длинных текстовых описаний.
Культурная адаптация
Разработчики отдельно подчёркивают способность модели учитывать культурный контекст. Uni-1 понимает стили - от интернет-мемов и манги до классических художественных направлений и адаптирует визуальный язык под задачу. В базе системы более 70 художественных стилей, и при этом она сохраняет смысл изображения, а не просто копирует визуальные элементы.
Интеграция с документами
Uni-1 используется внутри платформы Luma Agents, которая поддерживает работу с текстовыми материалами. Пользователи могут загружать PDF-файлы, сценарии, презентации и другие документы.

Система способна анализировать содержимое, выделять ключевые идеи, создавать краткие пересказы и превращать текст в визуальные или креативные результаты. Это делает модель инструментом не только для дизайнеров, но и для продюсеров, маркетологов и сценаристов.

Результаты и стоимость
По внутренним оценкам Luma Labs, Uni-1 заняла первое место в рейтинге пользовательских предпочтений (Elo) по качеству изображений, стилю и редактированию, а также по работе с референсами. В категории text-to-image модель уступила только одной системе.

Стоимость генерации составляет около 0,09 доллара за изображение в разрешении 2K (примерно 8–9 рублей), что делает её более доступной по сравнению с рядом конкурентов.
Пользователи, уже протестировавшие модель, отмечают важное изменение: теперь не нужно подробно прописывать длинные промпты. Достаточно описать идею, а остальное система достраивает самостоятельно.


