ElevenLabs вывела распознавание речи на новый уровень с моделью Scribe v2 Realtime

ElevenLabs представила Scribe v2 Realtime - новую модель распознавания речи, которая работает быстрее и точнее конкурентов, превращая живое аудио в текст почти без задержки. Это шаг к по-настоящему «человеческому» взаимодействию с голосовыми ассистентами и системами ИИ.
ElevenLabs вывела распознавание речи на новый уровень с моделью Scribe v2 Realtime

Компания ElevenLabs, известная своими продуктами на стыке искусственного интеллекта и работы с голосом, запустила Scribe v2 Realtime — модель, способную преобразовывать речь в текст с рекордной скоростью и точностью. Новинка реагирует практически мгновенно: задержка составляет всего 150 миллисекунд, что делает её пригодной для приложений, где важна каждая секунда — от онлайн-поддержки клиентов до систем синхронного перевода.

90 языков и почти безошибочная точность

Модель поддерживает более 90 языков, включая английский, французский, немецкий, итальянский, испанский, португальский, хинди и японский. Разработчики утверждают, что Scribe v2 Realtime уверенно справляется даже с «грязным» звуком — фоновым шумом, акцентами, сбивчивой речью.

В демонстрационном ролике ElevenLabs показала, как система безошибочно распознаёт заказ с номером отслеживания, продиктированный в шумной обстановке, тогда как другие модели допускают неточности. Этот пример показывает, что акцент сделан на реальных сценариях, от колл-центров до живых голосовых агентов, где AI должен реагировать естественно и без пауз.

Превзошла конкурентов

По результатам теста FLEURS, охватывающего 30 европейских и азиатских языков, Scribe v2 Realtime показала 95% точности, опередив конкурентов:

  • Gemini Flash 2.5 — 93,5%
  • GPT-4o Mini — 91,4%
  • Deepgram Nova 3 — 88,4%

Эти показатели выводят новую модель ElevenLabs в лидеры среди низколатентных систем автоматического распознавания речи (ASR).

Тесты
Scribe v2 Realtime устанавливает новый стандарт точности в реальном времени, превосходя все модели ASR с малой задержкой.

Кроме того, Scribe v2 Realtime умеет различать до 32 говорящих (диаризация), проставлять временные метки для каждого слова и фиксировать неспичевые события вроде смеха или аплодисментов — полезная функция для медиапроизводства и журналистики.

Безопасность и конфиденциальность

В ElevenLabs подчёркивают, что новый сервис отвечает строгим стандартам безопасности. Модель сертифицирована по SOC 2, ISO 27001, PCI DSS Level 1, HIPAA и GDPR. Пользователи могут выбрать, где хранить данные — в ЕС или Индии, либо активировать режим нулевого хранения, когда аудио не сохраняется вовсе.

Простая интеграция и совместимость с ElevenLabs Agents

Scribe v2 Realtime доступна через API: разработчики могут подключить её к своим приложениям буквально за несколько минут. Подробная документация на сайте ElevenLabs объясняет, как отправлять аудио и получать результаты через вебхуки.

Кроме того, модель интегрируется с ElevenLabs Agents — платформой для создания интерактивных голосовых и текстовых ассистентов. Эти агенты способны вести диалог, обращаться к базам знаний через технологию RAG (Retrieval-Augmented Generation) и подключаться к внешним системам вроде CRM или платёжных сервисов. Поддержка 32 языков и автоматическое определение речи позволяют использовать их в международных проектах без дополнительной настройки.

Голосовой рынок растёт

Запуск Scribe v2 Realtime совпал с бурным ростом рынка AI-инструментов для обработки речи. Компании стремятся автоматизировать поддержку клиентов, стенографию встреч и трансляции в реальном времени.

ElevenLabs делает ставку на «человеческий уровень понимания» речи. Если раньше транскрипция в реальном времени была компромиссом между скоростью и точностью, то теперь этот баланс смещается в пользу качества без потери мгновенности.

Желающие могут протестировать новую модель уже сейчас — регистрация открыта на официальном сайте ElevenLabs. Первые отклики пользователей и разработчиков в сети подтверждают: Scribe v2 Realtime действительно работает быстрее и чище, чем ожидали.

09:05
175
Нет комментариев. Ваш будет первым!