Kandinsky 5.0 выходит в полный рост и открывает новую главу в российской генерации контента

20 ноября 2025 года Сбер объявил о запуске полного набора моделей Kandinsky 5.0 — семейства генеративных систем, которое дополняет уже существующие решения и выводит российские технологии создания изображений и видео на новый уровень. Линейка ориентирована как на массовую аудиторию, так и на профессионалов, работающих с рекламой, дизайном и видеопроизводством.
Новые модели
Ключевыми новинками стали Kandinsky 5.0 Image Lite и Kandinsky 5.0 Video Pro.
Image Lite — это универсальная модель на архитектуре Diffusion Transformer с 6 миллиардами параметров, ориентированная на генерацию детализированных изображений в высоком разрешении. Она формирует более выразительные сцены и точнее работает с художественными стилями.
Второй релиз — Video Pro — мощная видеомодель на 19 миллиардах параметров. Она способна создавать до пяти секунд видео на основе текстового запроса или стартового кадра. Разработчики позиционируют её как инструмент для профессионального использования, где ценится управляемость, плавность движения и стабильность картинки.
Обе модели доступны в Telegram, мессенджере Max, на сайте giga.chat и в приложении GigaChat для Android.
Что внутри: архитектура и новые подходы
Серия Kandinsky 5.0 включает три линейки с различными характеристиками:
- Image Lite — модель для генерации HD-изображений (6B)
- Video Lite — облегчённая версия на 2B параметров
- Video Pro — профессиональная модель на 19B параметров
Основой выступает latent diffusion pipeline с методом согласования потоков Flow Matching. Диффузионная архитектура DiT использует кросс-внимание к текстовым эмбеддингам, которые формируются с помощью систем Qwen2.5-VL и CLIP.
Для видео применяется трёхмерный VAE-модуль HunyuanVideo, позволяющий работать с последовательностями кадров, а ускорение обеспечивает механизм NABLA Attention. Он сокращает время обучения и генерации примерно в 2,7 раза, не снижая уровней качества.
Особенности, на которые сделали ставку
Модели уверенно работают как с русским, так и английским текстом, что важно для гибридных запросов и генерации изображений с надписями. Создатели отмечают, что особое внимание уделили локальному контексту — сцены, характерные для российских реалий, теперь передаются естественнее.
Качество итогового контента повысилось за счёт финальной этапной доработки на специально отобранных дизайнерских датасетах. Команды художников вручную оценивали материал, чтобы оставить только изображения и видео с чёткой композицией и выразительным стилем.
Скорость работы тоже изменилась: Video Lite создаёт ролики длиной десять секунд примерно за 35–61 секунду в зависимости от модификации. Полноценная SFT-версия требует значительно больше — около 224 секунд за ту же длину.
Модели поддерживают генерацию видео до разрешения 1408p, что позволяет использовать их в рекламных и презентационных проектах.
Как менялась серия Kandinsky
Путь к Kandinsky 5.0 занял почти два года. В релизе 4.0, который вышел в декабре 2024 года, появились первые крупные видеомодели T2V, I2V и A2V. В промежуточных версиях 3.x и 4.x разработчики полностью перешли на архитектуру DiT и расширили возможности генерации вплоть до 4K.
Нынешняя версия, представленная в ноябре 2025 года, объединяет три линейки и добавляет новые архитектурные решения, не использовавшиеся ранее.
Где пригодятся новые модели
Любители смогут использовать Kandinsky 5.0 для создания поздравительных роликов, оживления фотографий или визуальных историй.
Профессионалы — режиссёры, дизайнеры, маркетинговые команды — получают инструмент, который может заменить студийные раскадровки, часть анимационной работы или производство коротких рекламных клипов.
Требования к оборудованию
По информации разработчиков, модели Pro предъявляют серьёзные требования к железу. Для полноценной работы нужна видеокарта уровня NVIDIA H100 с примерно 80 ГБ видеопамяти. Допускается использование GPU с 24 ГБ памяти при включении оптимизаций и режимов offloading. В планах — снизить требования до уровня массовых графических ускорителей.
Открытость и интеграции
Kandinsky 5.0 Video Lite уже принят в экосистему Hugging Face Diffusers, что упрощает внедрение модели в приложения и сервисы. Полная версия Video Pro стала с открытым исходным кодом 20 ноября 2025 года, что создаёт благоприятные условия для исследователей и разработчиков.
В ближайших обновлениях команда Сбера планирует расширить поддержку менее мощных GPU, добавить интеграцию с ComfyUI, реализовать авторегрессивную генерацию видео и ввести режим I2V для Video Lite.
Значение релиза
Запуск Kandinsky 5.0 показывает, что российские разработчики способны создавать генеративные модели, сравнимые с зарубежными системами вроде Midjourney и DALL-E. Открытость к сообществу и ориентация на профессиональный сегмент делают релиз заметным событием для отечественной индустрии ИИ.



