Luma AI представила TVM - одностадийный метод генерации, ускоряющий инференс в 25 раз

Luma AI представила Terminal Velocity Matching (TVM) - новый подход к обучению моделей генерации изображений и видео, который обещает увеличить скорость инференса до 25 раз по сравнению с классическими диффузионными моделями при сохранении качества. Метод создаёт одностадийный путь от шума к финальному кадру, позволяя получать детализированные изображения всего за четыре шага.
Luma AI представила TVM - одностадийный метод генерации, ускоряющий инференс в 25 раз

Luma AI объявила о разработке Terminal Velocity Matching (TVM) — нового метода обучения генеративных моделей, ориентированного на резкое снижение количества шагов, необходимых для получения финального изображения или кадра видео. Компания называет TVM «следующим этапом эволюции после диффузионных моделей», сохранив сильные стороны классических подходов, но устранив их главный недостаток — длительный и ресурсоёмкий инференс.

Что такое TVM

В традиционных диффузионных системах качество изображения достигается за счёт многократных проходов модели — от десятков до сотен шагов. TVM предлагает радикально иной подход: прямую одностадийную схему обучения, которая позволяет генерировать изображение всего за четыре шага.

Основная идея — моделирование «конечной скорости» траектории перехода от шума к изображению. По словам разработчиков, TVM достигает качества, эквивалентного десяткам итераций двухшаговой диффузии, но делает это быстрее за счёт заранее выученной динамики перехода.

Метод опирается на предыдущую работу Luma — Inductive Moment Matching (IMM), но в отличие от неё полностью масштабируется на крупные трансформеры с числом параметров от 10 млрд и выше. Для этого команда использовала несколько архитектурных улучшений: контроль полу-липшицевости, кастомные Flash Attention-ядра для Jacobian-Vector Product (JVP), а также оптимизированные схемы обучения.

Преимущества и масштабирование

По данным Luma AI, модель, обученная с нуля на TVM, демонстрирует качество, сопоставимое с результатами примерно 50 двухшаговых диффузионных итераций. При четырёх шагах вывод оказывается оптимальным компромиссом между скоростью и детализацией, что особенно важно для моделей, работающих с видео.

Для масштабного обучения использованы современные техники распределения нагрузки: Fully Sharded Data Parallel (FSDP), контекстный параллелизм и оптимизации под большие датасеты, включая ImageNet.

Компания также заявляет, что TVM можно применять как пост-тренировочный метод для уже существующих диффузионных моделей без необходимости добавлять дополнительные сети. Это делает технологию привлекательной для разработчиков, которым важно ускорить инференс без дорогостоящего повторного обучения.

Доступность, исходный код и планы Luma

Исследовательская работа опубликована на arXiv, где подробно описаны математические основания TVM и сравнение с существующими методами. Для разработчиков открыт репозиторий на GitHub с кодом экспериментов на ImageNet, что позволяет воспроизвести ключевые результаты.

Luma AI также приглашает специалистов присоединиться к команде, подчёркивая, что TVM станет фундаментом для будущих мультимодальных моделей компании — от высококачественной генерации изображений до полноценного видео.

09:20
217
Нет комментариев. Ваш будет первым!