ElevenLabs вывела распознавание речи на новый уровень с моделью Scribe v2 Realtime

Компания ElevenLabs, известная своими продуктами на стыке искусственного интеллекта и работы с голосом, запустила Scribe v2 Realtime — модель, способную преобразовывать речь в текст с рекордной скоростью и точностью. Новинка реагирует практически мгновенно: задержка составляет всего 150 миллисекунд, что делает её пригодной для приложений, где важна каждая секунда — от онлайн-поддержки клиентов до систем синхронного перевода.
90 языков и почти безошибочная точность
Модель поддерживает более 90 языков, включая английский, французский, немецкий, итальянский, испанский, португальский, хинди и японский. Разработчики утверждают, что Scribe v2 Realtime уверенно справляется даже с «грязным» звуком — фоновым шумом, акцентами, сбивчивой речью.
В демонстрационном ролике ElevenLabs показала, как система безошибочно распознаёт заказ с номером отслеживания, продиктированный в шумной обстановке, тогда как другие модели допускают неточности. Этот пример показывает, что акцент сделан на реальных сценариях, от колл-центров до живых голосовых агентов, где AI должен реагировать естественно и без пауз.
Превзошла конкурентов
По результатам теста FLEURS, охватывающего 30 европейских и азиатских языков, Scribe v2 Realtime показала 95% точности, опередив конкурентов:
- Gemini Flash 2.5 — 93,5%
- GPT-4o Mini — 91,4%
- Deepgram Nova 3 — 88,4%
Эти показатели выводят новую модель ElevenLabs в лидеры среди низколатентных систем автоматического распознавания речи (ASR).
Кроме того, Scribe v2 Realtime умеет различать до 32 говорящих (диаризация), проставлять временные метки для каждого слова и фиксировать неспичевые события вроде смеха или аплодисментов — полезная функция для медиапроизводства и журналистики.
Безопасность и конфиденциальность
В ElevenLabs подчёркивают, что новый сервис отвечает строгим стандартам безопасности. Модель сертифицирована по SOC 2, ISO 27001, PCI DSS Level 1, HIPAA и GDPR. Пользователи могут выбрать, где хранить данные — в ЕС или Индии, либо активировать режим нулевого хранения, когда аудио не сохраняется вовсе.
Простая интеграция и совместимость с ElevenLabs Agents
Scribe v2 Realtime доступна через API: разработчики могут подключить её к своим приложениям буквально за несколько минут. Подробная документация на сайте ElevenLabs объясняет, как отправлять аудио и получать результаты через вебхуки.
Кроме того, модель интегрируется с ElevenLabs Agents — платформой для создания интерактивных голосовых и текстовых ассистентов. Эти агенты способны вести диалог, обращаться к базам знаний через технологию RAG (Retrieval-Augmented Generation) и подключаться к внешним системам вроде CRM или платёжных сервисов. Поддержка 32 языков и автоматическое определение речи позволяют использовать их в международных проектах без дополнительной настройки.
Голосовой рынок растёт
Запуск Scribe v2 Realtime совпал с бурным ростом рынка AI-инструментов для обработки речи. Компании стремятся автоматизировать поддержку клиентов, стенографию встреч и трансляции в реальном времени.
ElevenLabs делает ставку на «человеческий уровень понимания» речи. Если раньше транскрипция в реальном времени была компромиссом между скоростью и точностью, то теперь этот баланс смещается в пользу качества без потери мгновенности.
Желающие могут протестировать новую модель уже сейчас — регистрация открыта на официальном сайте ElevenLabs. Первые отклики пользователей и разработчиков в сети подтверждают: Scribe v2 Realtime действительно работает быстрее и чище, чем ожидали.


