Kandinsky Video - первая в России архитектура синтеза видео по тексту.

Во время конференции AI Journey команда Sber AI рассказала, что Kandinsky Video стала первой российской моделью машинного обучения для генерации коротких видеороликов. Для её обучения использовали набор из 220 тысяч пар «текст — видео».

Нейросеть для создания видеороликов по текстовому описанию — Kandinsky Video способна сгенерировать видео длительностью до восьми секунд частотой 30 кадров в секунду. Архитектура Kandinsky Video основана на латентной диффузии.

«Недавно мы обучили Kandinsky создавать анимационные видео по текстовому описанию, а сегодня представляем модель совершенно другого уровня. Это важный вклад в развитие российских генеративных нейросетей», — рассказал зампредседателя правления банка, Александр Ведяхин

Разработанная модель представляет из себя двухэтапную процедуру. Первый отвечает за создание ключевых кадров, из которых в дальнейшем складывается структура видео, задающих основной сюжетный план и выглядит как простая смена кадров, а второй — за генерацию интерполяционных кадров, обеспечивающих плавность движений в видео.

Такое разделение на этапы позволяет сохранять согласованность с текстовым описанием на протяжении всего видео как по содержанию, так и по динамике.

Видео ролики создаются пока с небольшим разрешением 512 х 512 пикселей и любым соотношением сторон. В настоящее время возможность использования сервиса доступна в Телеграм-Боте @video_kandinsky_bot и на платформе нейросети Кандинский - Fusion Brain. Для генерации видеоролика потребуется около 4-х минут.

Безусловно, сегодня путь в области синтеза видео только начинается, но первый шаг, получился довольно обширным. Можно представить, что в скором будущем мы уже будем смотреть фильмы, синтезированные с помощью искусственного интеллекта.

Видео

сбер kandinsky ai journey видео

Читайте новости в Telegram

t.me/ v_neuro