Mistral AI выпускает Voxtral Transcribe 2 с задержкой менее 200 мс и открытыми весами

Компания Mistral AI объявила о запуске Voxtral Transcribe 2 - обновлённой линейки моделей для преобразования речи в текст. Релиз ориентирован прежде всего на разработчиков голосовых ассистентов, сервисов онлайн-коммуникаций и корпоративных систем, где критичны скорость отклика, точность и контроль над данными.
По заявлению компании, новые модели обеспечивают одну из самых низких задержек на рынке при сохранении точности, близкой к офлайн-решениям, и при этом могут работать локально, без передачи аудиоданных на внешние серверы.
Две модели - два сценария использования
Линейка Voxtral Transcribe 2 включает две основные модели, рассчитанные на разные задачи.
1. Voxtral Realtime
Модель предназначена для потокового распознавания речи в реальном времени. Архитектура позволяет настраивать задержку вплоть до значений ниже 200 миллисекунд - уровень, при котором пользователь практически не ощущает паузы между речью и текстом. Это особенно важно для голосовых агентов, онлайн-встреч и интерактивных интерфейсов.
Даже при увеличении задержки до примерно 480 миллисекунд качество распознавания, по данным Mistral AI, отличается от офлайн-моделей всего на 1–2 процента по уровню ошибок. Существенная особенность Voxtral Realtime - открытые веса и лицензия Apache 2.0. Это даёт возможность свободно скачивать модель, разворачивать её локально и использовать в коммерческих продуктах без обязательной привязки к облаку.
Такой подход особенно востребован в сферах, где требования к конфиденциальности стоят на первом месте: медицине, финансах и корпоративных системах внутреннего документооборота.
2. Voxtral Mini Transcribe 2
Вторая модель ориентирована на пакетную обработку аудиофайлов. Она показывает уровень ошибок слов (WER) около 4 процентов на бенчмарке FLEURS - показатель, который в ряде тестов превосходит популярные коммерческие и открытые аналоги.

Voxtral Mini Transcribe 2 поддерживает диаризацию спикеров, временные метки на уровне отдельных слов, а также механизм контекстного смещения, позволяющий улучшать распознавание специализированной терминологии. Модель работает с 13 языками и рассчитана на масштабную обработку записей - от интервью и подкастов до архивов видеоконтента.
Цена и доступность
Mistral AI делает акцент и на стоимости сервиса. Использование Voxtral Mini Transcribe 2 через API оценивается в 0,003 доллара за минуту обработки (примерно 0,27 рубля), а потоковое распознавание в реальном времени - в 0,006 доллара за минуту (около 0,55 рубля). Это заметно ниже цен многих конкурентов при сопоставимых характеристиках.
Voxtral Realtime уже доступна для скачивания на платформе Hugging Face, а обе модели интегрированы в API Mistral.
Тестирование в Mistral Studio
Вместе с релизом компания запустила обновлённый аудио-плейграунд в Mistral Studio. Пользователи могут бесплатно загрузить до десяти аудиофайлов размером до 1 ГБ каждый, выбрать формат временных меток, включить диаризацию и добавить контекстные подсказки для улучшения качества распознавания. Поддерживаются популярные форматы - MP3, WAV, M4A, FLAC и OGG.
Контекст рынка
Voxtral Transcribe 2 стал логичным развитием первого Voxtral, представленного в 2025 году, но во втором поколении Mistral AI заметно усилила фокус на on-device-подходе. Возможность запускать модели локально на ноутбуках и мобильных устройствах снижает зависимость от облачной инфраструктуры и упрощает соблюдение требований по защите персональных данных.
Эксперты отмечают, что такие решения открывают дорогу новым сценариям использования - от автоматических субтитров и интеллектуальных заметок до голосовых интерфейсов, работающих без постоянного подключения к интернету.
Интересный факт: первые коммерческие системы распознавания речи с задержкой менее секунды появились лишь в конце 2010-х годов, и до сих пор считались сложными и дорогими в эксплуатации. Voxtral Transcribe 2 демонстрирует, что подобный уровень отклика становится доступным и в открытых моделях.
Выводы
Релиз Voxtral Transcribe 2 укрепляет позиции Mistral AI как одного из ключевых европейских разработчиков ИИ-моделей. Сочетание низкой задержки, открытой лицензии и конкурентной цены делает новую линейку заметным игроком на рынке распознавания речи, особенно для тех, кто ищет альтернативу закрытым облачным сервисам.



