Scribe от ElevenLabs ускорил работу AI-ассистента Jamie в 3 раза

Компания ElevenLabs, известная своими передовыми разработками в области синтеза речи, представила модель Scribe, которая обещает стать самой точной системой для преобразования речи в текст. Недавно AI-ассистент для встреч Jamie интегрировал Scribe и добился впечатляющих результатов: скорость транскрипции выросла в 3 раза, а качество продукта заметно улучшилось.
Что такое Scribe и почему он важен?
В феврале 2025 года ElevenLabs запустила Scribe — модель для преобразования речи в текст (Speech-to-Text, STT), которую называют самой точной на рынке. Scribe поддерживает 99 языков, обеспечивая точность транскрипции более 98% для основных языков и значительно снижая количество ошибок в менее распространенных, таких как сербский, кантонский или малаялам. Среди ключевых возможностей модели — точные временные метки на уровне символов, диаризация (разделение речи по спикерам) и тегирование аудиособытий, что делает её идеальным инструментом для сложных аудиосценариев.
Scribe уже успел зарекомендовать себя как решение для самых разных задач: от транскрипции аудио и видео до документирования встреч и анализа контента. Один из ярких примеров — сотрудничество с AI-ассистентом Jamie, который помогает пользователям автоматически создавать заметки и аналитику встреч.
Jamie и Scribe: синергия технологий
Jamie — это AI-ассистент, который автоматически генерирует подробные заметки по итогам встреч, выделяет ключевые решения и действия.
Продукт работает как с онлайн-встречами (Zoom, Google Meet, MS Teams), так и с очными обсуждениями, что делает его универсальным инструментом для бизнеса и личного использования.
Однако до недавнего времени Jamie сталкивался с проблемами: существующие STT-решения не могли обеспечить нужный уровень точности транскрипции и диаризации, особенно в условиях пересекающейся речи, прерываний или неречевых звуков. Команда Jamie даже создала собственный конвейер обработки данных, комбинируя открытые модели для диаризации и транскрипции. Но поддержание такого решения требовало значительных инженерных ресурсов. Всё изменилось с появлением Scribe.
После тестирования модель от ElevenLabs показала выдающиеся результаты: она лучше справлялась с пересекающейся речью, перебоями и неречевыми звуками, чем другие решения на рынке. Интеграция Scribe заняла всего несколько дней и потребовала минимальных доработок.
Результаты: быстрее, точнее, проще
Переход на Scribe принес Jamie сразу несколько улучшений:
- Скорость обработки выросла в 3 раза: теперь транскрипция часовой встречи занимает всего 30–45 секунд вместо прежних нескольких минут.
- Качество транскрипции улучшилось: исчезли жалобы пользователей на ошибки в распознавании спикеров, а точность заметок выросла.
- Поддержка нескольких языков: Scribe показал отличные результаты на английском, немецком, испанском и нидерландском языках, что важно для международных пользователей Jamie.
- Снижение инженерной нагрузки: больше не нужно поддерживать сложный собственный конвейер — Scribe предоставляет точность и диаризацию «из коробки».
Эти улучшения напрямую повлияли на пользовательский опыт: клиенты быстрее получают результаты, что увеличило количество записываемых встреч и уровень вовлеченности.
Что говорят разработчики?
Представители Jamie высоко оценили новую интеграцию. Глава отдела продукта и разработки компании отметил:
Переход на Scribe значительно повысил качество нашего продукта. Возможность точно фиксировать динамику разговоров, даже в сложных аудиоусловиях, напрямую привела к росту удовлетворенности клиентов и улучшению аналитики встреч.
Егор Спирин, глава отдела продукта и разработки компании meetjamie.ai.
Что делает Scribe особенным?
Scribe выделяется на фоне конкурентов благодаря ряду уникальных возможностей:
- Точность более 98%: модель обеспечивает минимальный уровень ошибок даже в сложных аудиосценариях.
- Диаризация и тегирование событий: Scribe автоматически разделяет спикеров и отмечает неречевые звуки, что упрощает дальнейшую обработку данных.
- Поддержка 99 языков: это делает модель универсальной для глобального использования.
- Простая интеграция: API Scribe позволяет разработчикам быстро внедрять модель в свои продукты.
Эти характеристики делают Scribe идеальным решением не только для стартапов вроде Jamie, но и для крупных компаний, которым нужна надежная транскрипция для анализа данных, автоматизации процессов или создания контента.
ElevenLabs и рынок AI-аудио
ElevenLabs — компания, которая уже зарекомендовала себя как лидер в области AI-аудио. Помимо Scribe, они предлагают модели для синтеза речи, такие как Eleven Multilingual v2, которые создают естественную и эмоционально насыщенную речь на 32 языках. Продукты ElevenLabs находят применение в самых разных сферах: от создания аудиокниг и озвучки видео до локализации контента для международных рынков. Scribe стал логичным дополнением их экосистемы, закрывая потребность в точной транскрипции.
Что это значит для рынка?
Интеграция Scribe в Jamie — это не просто история успеха одного стартапа. Она демонстрирует, как новые технологии в области обработки речи могут радикально менять пользовательский опыт и бизнес-процессы. Для компаний, которые зависят от точной транскрипции — будь то разработчики AI-ассистентов, создатели контента или аналитики данных, — Scribe открывает новые возможности. Скорость, точность и простота интеграции делают эту модель серьезным конкурентом на рынке Speech-to-Text.
В ближайшие годы мы, скорее всего, увидим, как подобные технологии станут стандартом для автоматизации встреч, аналитики данных и даже создания доступного контента для людей с ограничениями слуха. А пока Scribe и Jamie показывают, что будущее уже здесь — и оно звучит впечатляюще.