Luma Labs представила модель Uni-1 которая думает и рисует одновременно

Luma Labs представила Uni-1 - первую генеративную модель, которая объединяет мышление и создание изображений в одном процессе. Система не просто выполняет команды, а анализирует намерение пользователя и формирует визуальный результат «на лету». Разработка уже доступна для тестирования и может изменить подход к генерации контента.
Luma Labs представила модель Uni-1 которая думает и рисует одновременно

23 марта компания Luma Labs AI объявила о запуске новой генеративной модели Uni-1. Это первая система, в которой понимание запроса и создание изображения происходят одновременно, без разделения на отдельные этапы. Разработчики уже открыли доступ к тестированию на собственной платформе.

Главное отличие Uni-1 - архитектура Unified Intelligence. Она позволяет модели не просто реагировать на текстовые команды, а разбираться в намерениях пользователя и корректировать результат прямо в процессе генерации. По сути, система «размышляет» вместе с человеком, что заметно влияет на итоговое качество изображений.

Как устроена новая архитектура

В основе Uni-1 лежит автогенеративный трансформер decoder-only - тот же принцип, что используется в больших языковых моделях. Однако здесь текст и визуальные данные объединены в единую последовательность токенов. Это означает, что модель не делит процесс на «понимание» и «рисование», а всё происходит в одном вычислительном проходе.

В отличие от диффузионных моделей, которые начинают с шума и постепенно его очищают, Uni-1 предсказывает результат шаг за шагом. Она генерирует как слова, так и элементы изображения последовательно, одновременно проверяя логичность сцены, освещение и физику объектов.

По сути, модель работает как художник, который не просто рисует, а постоянно задаёт себе вопросы: «А правильно ли падает тень?», «Соответствует ли перспектива?» и сразу вносит правки.

Пространственное мышление и логика

Одной из ключевых особенностей Uni-1 стало развитое пространственное мышление. Модель умеет достраивать сцены, учитывать взаимное расположение объектов и сохранять физическую правдоподобность.

Например, при редактировании изображения она корректно пересчитывает освещение, перспективу и взаимодействие элементов. Это особенно важно для сложных композиций, где традиционные модели часто допускают ошибки.

По данным внутренних тестов, Uni-1 показывает высокие результаты в задачах, требующих логики и последовательного анализа. В частности, она лидирует в бенчмарке RISEBench, ориентированном на визуальное редактирование с учётом рассуждений.

Работа с референсами

Модель получила продвинутые инструменты управления через эталонные изображения. Пользователь может загрузить фотографию, эскиз или любой визуальный пример, а Uni-1 сохранит стиль, композицию и ключевые детали при генерации нового контента.

Это открывает возможности для создания серий изображений в едином стиле, редактирования существующих работ и точного контроля результата без длинных текстовых описаний.

Культурная адаптация

Разработчики отдельно подчёркивают способность модели учитывать культурный контекст. Uni-1 понимает стили - от интернет-мемов и манги до классических художественных направлений и адаптирует визуальный язык под задачу. В базе системы более 70 художественных стилей, и при этом она сохраняет смысл изображения, а не просто копирует визуальные элементы.

Интеграция с документами

Uni-1 используется внутри платформы Luma Agents, которая поддерживает работу с текстовыми материалами. Пользователи могут загружать PDF-файлы, сценарии, презентации и другие документы.

поддерживает работу с текстовыми материалами

Система способна анализировать содержимое, выделять ключевые идеи, создавать краткие пересказы и превращать текст в визуальные или креативные результаты. Это делает модель инструментом не только для дизайнеров, но и для продюсеров, маркетологов и сценаристов.

текст в визуальные или

Результаты и стоимость

По внутренним оценкам Luma Labs, Uni-1 заняла первое место в рейтинге пользовательских предпочтений (Elo) по качеству изображений, стилю и редактированию, а также по работе с референсами. В категории text-to-image модель уступила только одной системе.

рейтинг пользовательских предпочтений Elo

Стоимость генерации составляет около 0,09 доллара за изображение в разрешении 2K (примерно 8–9 рублей), что делает её более доступной по сравнению с рядом конкурентов.

Пользователи, уже протестировавшие модель, отмечают важное изменение: теперь не нужно подробно прописывать длинные промпты. Достаточно описать идею, а остальное система достраивает самостоятельно.

07:40
407
Нет комментариев. Ваш будет первым!