Как ElevenLabs стала лидером рынка синтеза речи и мультимедийных ИИ-технологий

Голоса, которые звучат слишком правдоподобно
Проблема однообразной озвучки фильмов в Польше с давних пор стала почти мемом. Один монотонный диктор приводит диалоги всех героев, без интонаций и эмоций. Именно эту многолетнюю традицию пытались переосмыслить основатели ElevenLabs - Матеуш Станишевский и Пётр Домбковский. Оба работали за границей - один в Palantir, другой в Google, и в свободное время экспериментировали с искусственным интеллектом.
Одна из их идей, ИИ-коуч по публичным выступлениям, неожиданно привела к пониманию что современные модели могут не только анализировать речь, но и генерировать её, причём настолько реалистично, чтобы заменить привычного «диктора» и вернуть актёрам голоса.
К маю 2022 года основатели уволились и вложили собственные накопления в проект. Уже первая версия генератора текста в речь оказалась заметно лучше привычных голосов Siri или Alexa - система умела не только читать текст, но и передавать эмоции, смех и нюансы интонации.
Быстрый рывок и неожиданный масштаб
Первую модель ElevenLabs представили в январе 2023 года. Она умела озвучивать любой текст в любом голосе, включая клон собственного или, что вызывало тревогу, чужого. Эффект был мгновенным:
- авторы начали массово создавать аудиокниги;
- видеоблогеры переводили свои материалы на десятки языков;
- образовательные и медитационные сервисы интегрировали синтезатор в приложения;
- крупные издательства, включая HarperCollins и Bertelsmann, подписали контракты.
Инвесторы отреагировали так же быстро. В мае 2023 года ElevenLabs привлекли $19 млн, а уже в октябре 2024 года оценка компании выросла до $6,6 млрд. Оба основателя в 30 лет стали миллиардерами по оценке Forbes.

Тёмная сторона гиперреалистичных голосов
Но популярность имела и обратную сторону. Сеть мгновенно заполнили ролики, где имитированные голоса публичных людей обсуждали несуществующие события, рекламировали мошеннические схемы или озвучивали провокационный контент.
Более серьёзную угрозу представляли аудиодипфейки, используемые в мошенничестве: преступники подделывали голоса родственников и обманом получали деньги у жертв.
Когда в 2024 году клон голоса Джо Байдена использовали в автоматическом обзвоне для подавления явки на праймериз, ElevenLabs пришлось реагировать. Компания ввела список запретных голосов, установила проверку согласия владельца голоса и наняла команду модераторов. Появился и детектор дипфейков.
Деньги, клиенты и борьба за рынок
За последние 12 месяцев компания заработала $193 млн, половину из которых принесли корпоративные клиенты: Cisco, Twilio, Adecco и другие. Они используют технологию для колл-центров, интервьюирования кандидатов или поддержки клиентов.
Epic Games применяет ElevenLabs для озвучивания героев Fortnite - включая диалоги с Дартом Вейдером, согласованные с наследниками Джеймса Эрла Джонса.
Оставшуюся выручку формируют авторы, блогеры и подкастеры. У компании положительная рентабельность: более $116 млн прибыли за год.
Эксперты отмечают, что ElevenLabs обгоняет большинство конкурентов. В тестировании Labelbox её модель ошибалась вдвое реже, чем ближайшая аналогичная система от OpenAI. Библиотека компании включает более 10 тысяч голосов, среди которых даже голоса известных актёров уровня Майкла Кейна и Мэттью Макконахи.
Конфликты и юридические вопросы
Не обошлось без исков. Двое профессиональных дикторов - Карисса Вакер и Марк Бойетт заявили, что их озвученные аудиокниги без разрешения использовались для обучения модели, из-за чего голосовые клоны стали появляться как готовые пресеты. ElevenLabs отвергла обвинения, но спор завершился мировым соглашением.
Компания признаёт, что индустрия вступает в фазу зрелости: правила и ограничения необходимы, иначе риски будут расти быстрее технологий.
Амбиции дальше голоса
В августе 2024 года ElevenLabs выпустила генератор музыкального сопровождения. Следующим шагом станут ИИ-аватары для видеоконтента - теоретически они смогут создавать ролики уровня современных моделей наподобие Sora, но с «живыми» ведущими.
Стратегическая цель - создать платформу, где компании смогут строить и развёртывать собственных голосовых ассистентов и мультимедийных ИИ-агентов.
Дальнейшие перспективы
Несмотря на конкуренцию со стороны гигантов - Google, Microsoft, Amazon, OpenAI - ElevenLabs остаётся одним из немногих прибыльных стартапов отрасли. Но чтобы удержаться на вершине, придётся масштабировать инфраструктуру, и уже построен дата-центр в Орегоне стоимостью $50 млн.
Основатели уверены, что синтез голоса останется ключевой частью мультимодальных систем. И, как подчёркивает Домбковский, их первоначальная цель - озвучивать и переводить фильмы «одним нажатием» - по-прежнему актуальна.