Новые достижения NVIDIA в области визуального ИИ

Исследователи NVIDIA представили на конференции CVPR новые модели генеративного ИИ, такие как JeDi для быстрого создания изображений и FoundationPose для отслеживания 3D-позиций объектов. Эти инновации могут существенно изменить будущее беспилотников, AR и робототехники.

На CVPR NVIDIA продемонстрировала, как расширяются границы возможностей в таких областях, как генерация изображений, автономное вождение и понимание визуального языка. Ян Каутц, вице-президент по исследованиям обучения и восприятия в NVIDIA, отметил значимость этих достижений:

"Искусственный интеллект, и в частности генеративный ИИ, представляют собой важнейшее технологическое достижение." - Jan Kautz

Одним из главных проектов является JeDi — техника, позволяющая быстро настраивать диффузионные модели для создания изображений конкретных объектов или персонажей с помощью нескольких референсных изображений. Подобный подход значительно ускоряет процесс создания контента.

FoundationPose — еще одно значимое достижение. Эта базовая модель может моментально понимать и отслеживать 3D-позиции объектов в видео без необходимости индивидуального обучения для каждого объекта. Это открытие может привести к новым приложениям в дополненной реальности и робототехнике.

Победы и признание

Среди более чем 50 исследовательских проектов NVIDIA на конференции, два доклада стали финалистами премии Best Paper Awards: исследование динамики обучения диффузионных моделей и работа по созданию высокоточных карт для самоуправляемых автомобилей.

Кроме того, NVIDIA выиграла конкурс CVPR Autonomous Grand Challenge в номинации End-to-End Driving at Scale, превзойдя более 450 участников со всего мира. Достижение демонстрирует ведущую роль компании в использовании генеративного ИИ для создания комплексных моделей для автономного транспорта и принесло ей победу за инновации от CVPR.

Прорыв в 3D-редактировании

Еще одним важным проектом стал NeRFDeformer, метод редактирования 3D-сцен, захваченных с помощью Neural Radiance Field (NeRF), с использованием одного 2D-снимка. Такая технология может значительно упростить процесс редактирования 3D-сцен для графики, робототехники и цифровых двойников.

В сотрудничестве с MIT, NVIDIA разработала VILA, новое семейство моделей, объединяющих визуальное и лингвистическое понимание. Модели достигли передовых результатов в понимании изображений, видео и текста, что позволяет им даже разбирать интернет-мемы.

Итоги

Обширные исследования NVIDIA в области визуального ИИ охватывают множество отраслей, включая беспилотники, производство и здравоохранение. Работа команды NVIDIA во главе с Санжей Фидлер, вице-президентом по исследованиям ИИ, показывает, как генеративный ИИ может расширить возможности создателей контента, ускорить автоматизацию и продвинуть автономные технологии.

Видео

nvidia беспилотники робототехника

Читайте новости в Telegram

t.me/ v_neuro

18.06.2024 07:44

183

NVIDIA

NVIDIA Corporation одна из ведущих технологических компаний в мире, известная своими инновациями в области графических процессоров и технологий искусственного интеллекта.