MoshiVis: первая открытая модель, понимающая голос и изображение одновременно

Французская исследовательская компания Kyutai представила MoshiVis — первую открытую модель, способную понимать и обсуждать визуальные образы голосом в реальном времени. Разработка обещает революцию в мультимодальных интерфейсах и уже доступна для использования.
MoshiVis: первая открытая модель, понимающая голос и изображение одновременно

Стартап Kyutai представил MoshiVis — первую в мире открытую модель, которая объединяет речь и зрение в режиме реального времени. Теперь об изображениях можно не просто говорить, а буквально разговаривать с ними — модель распознаёт визуальный контент и описывает его голосом, без заметных задержек.

Новинка построена на базе Moshi — предыдущей речевой модели компании. Но теперь к ней добавили зрение: благодаря интеграции визуального энкодера PaliGemma2-3B-448 и модулю перекрёстного внимания с 206 миллионами параметров, MoshiVis справляется с задачами быстрее, чем моргнёшь — задержка не превышает 7 миллисекунд на шаг инференса. Это делает модель особенно ценной для устройств с ограниченными возможностями — например, на MacMini с чипом M4 Pro она работает без нареканий.

Одна из ключевых «фишек» MoshiVis — обучаемый гейтинг. Если визуальная информация не нужна, модель отключает соответствующие входы, экономя ресурсы и ускоряя отклик. При этом голос остаётся прежним: живым, с эмоциями и интонацией. По словам команды Kyutai, удалось добиться впечатляющего баланса — естественный диалог в реальном времени без потерь качества.

Приятный бонус: MoshiVis доступна по лицензии CC-BY-4.0, а значит — можно использовать даже в коммерческих проектах. Модель уже поддерживается MLX, Candle и PyTorch, так что разработчики могут сразу приступать к созданию собственных решений. Среди потенциальных применений — голосовые ассистенты, мультимодальные интерфейсы, инструменты для людей с нарушениями зрения и системы доступности.

Анонс MoshiVis — ответ на растущий спрос на мультимодальные ИИ, особенно с учётом дефицита парных датасетов «речь + изображение». В Kyutai подчёркивают: это только начало. В планах — дальнейшее развитие открытых технологий с упором на практическую пользу.

«Мы верим, что MoshiVis станет отправной точкой для множества новых открытий и приложений», — говорится в пресс-релизе компании.

08:05
726
Нет комментариев. Ваш будет первым!
Яндекс.Метрика