Kandinsky Video - первая в России архитектура синтеза видео по тексту.
Нейросеть для создания видеороликов по текстовому описанию — Kandinsky Video способна сгенерировать видео длительностью до восьми секунд частотой 30 кадров в секунду. Архитектура Kandinsky Video основана на латентной диффузии.
«Недавно мы обучили Kandinsky создавать анимационные видео по текстовому описанию, а сегодня представляем модель совершенно другого уровня. Это важный вклад в развитие российских генеративных нейросетей», — рассказал зампредседателя правления банка, Александр Ведяхин
Разработанная модель представляет из себя двухэтапную процедуру. Первый отвечает за создание ключевых кадров, из которых в дальнейшем складывается структура видео, задающих основной сюжетный план и выглядит как простая смена кадров, а второй — за генерацию интерполяционных кадров, обеспечивающих плавность движений в видео.
Такое разделение на этапы позволяет сохранять согласованность с текстовым описанием на протяжении всего видео как по содержанию, так и по динамике.
Видео ролики создаются пока с небольшим разрешением 512 х 512 пикселей и любым соотношением сторон. В настоящее время возможность использования сервиса доступна в Телеграм-Боте @video_kandinsky_bot и на платформе нейросети Кандинский - Fusion Brain. Для генерации видеоролика потребуется около 4-х минут.
Безусловно, сегодня путь в области синтеза видео только начинается, но первый шаг, получился довольно обширным. Можно представить, что в скором будущем мы уже будем смотреть фильмы, синтезированные с помощью искусственного интеллекта.