Как ElevenLabs стала лидером рынка синтеза речи и мультимедийных ИИ-технологий

Четырёхлетний стартап ElevenLabs стремительно превратился в одного из ключевых игроков в сфере синтеза речи, предложив настолько реалистичные голоса, что ими легко можно спутать реального человека. За впечатляющим ростом стоят миллиарды инвестиций, контракты с крупнейшими корпорациями и одновременно серьёзные вопросы к этике технологий.
Как ElevenLabs стала лидером рынка синтеза речи и мультимедийных ИИ-технологий

Голоса, которые звучат слишком правдоподобно

Проблема однообразной озвучки фильмов в Польше с давних пор стала почти мемом. Один монотонный диктор приводит диалоги всех героев, без интонаций и эмоций. Именно эту многолетнюю традицию пытались переосмыслить основатели ElevenLabs - Матеуш Станишевский и Пётр Домбковский. Оба работали за границей - один в Palantir, другой в Google, и в свободное время экспериментировали с искусственным интеллектом.

Одна из их идей, ИИ-коуч по публичным выступлениям, неожиданно привела к пониманию что современные модели могут не только анализировать речь, но и генерировать её, причём настолько реалистично, чтобы заменить привычного «диктора» и вернуть актёрам голоса.

К маю 2022 года основатели уволились и вложили собственные накопления в проект. Уже первая версия генератора текста в речь оказалась заметно лучше привычных голосов Siri или Alexa - система умела не только читать текст, но и передавать эмоции, смех и нюансы интонации.

Быстрый рывок и неожиданный масштаб

Первую модель ElevenLabs представили в январе 2023 года. Она умела озвучивать любой текст в любом голосе, включая клон собственного или, что вызывало тревогу, чужого. Эффект был мгновенным:

  • авторы начали массово создавать аудиокниги;
  • видеоблогеры переводили свои материалы на десятки языков;
  • образовательные и медитационные сервисы интегрировали синтезатор в приложения;
  • крупные издательства, включая HarperCollins и Bertelsmann, подписали контракты.

Инвесторы отреагировали так же быстро. В мае 2023 года ElevenLabs привлекли $19 млн, а уже в октябре 2024 года оценка компании выросла до $6,6 млрд. Оба основателя в 30 лет стали миллиардерами по оценке Forbes.

Forbes

Тёмная сторона гиперреалистичных голосов

Но популярность имела и обратную сторону. Сеть мгновенно заполнили ролики, где имитированные голоса публичных людей обсуждали несуществующие события, рекламировали мошеннические схемы или озвучивали провокационный контент.

Более серьёзную угрозу представляли аудиодипфейки, используемые в мошенничестве: преступники подделывали голоса родственников и обманом получали деньги у жертв.

Когда в 2024 году клон голоса Джо Байдена использовали в автоматическом обзвоне для подавления явки на праймериз, ElevenLabs пришлось реагировать. Компания ввела список запретных голосов, установила проверку согласия владельца голоса и наняла команду модераторов. Появился и детектор дипфейков.

Деньги, клиенты и борьба за рынок

За последние 12 месяцев компания заработала $193 млн, половину из которых принесли корпоративные клиенты: Cisco, Twilio, Adecco и другие. Они используют технологию для колл-центров, интервьюирования кандидатов или поддержки клиентов.

Epic Games применяет ElevenLabs для озвучивания героев Fortnite - включая диалоги с Дартом Вейдером, согласованные с наследниками Джеймса Эрла Джонса.

Оставшуюся выручку формируют авторы, блогеры и подкастеры. У компании положительная рентабельность: более $116 млн прибыли за год.

Эксперты отмечают, что ElevenLabs обгоняет большинство конкурентов. В тестировании Labelbox её модель ошибалась вдвое реже, чем ближайшая аналогичная система от OpenAI. Библиотека компании включает более 10 тысяч голосов, среди которых даже голоса известных актёров уровня Майкла Кейна и Мэттью Макконахи.

Конфликты и юридические вопросы

Не обошлось без исков. Двое профессиональных дикторов - Карисса Вакер и Марк Бойетт  заявили, что их озвученные аудиокниги без разрешения использовались для обучения модели, из-за чего голосовые клоны стали появляться как готовые пресеты. ElevenLabs отвергла обвинения, но спор завершился мировым соглашением.

Компания признаёт, что индустрия вступает в фазу зрелости: правила и ограничения необходимы, иначе риски будут расти быстрее технологий.

Амбиции дальше голоса

В августе 2024 года ElevenLabs выпустила генератор музыкального сопровождения. Следующим шагом станут ИИ-аватары для видеоконтента - теоретически они смогут создавать ролики уровня современных моделей наподобие Sora, но с «живыми» ведущими.

Стратегическая цель - создать платформу, где компании смогут строить и развёртывать собственных голосовых ассистентов и мультимедийных ИИ-агентов.

Дальнейшие перспективы

Несмотря на конкуренцию со стороны гигантов - Google, Microsoft, Amazon, OpenAI - ElevenLabs остаётся одним из немногих прибыльных стартапов отрасли. Но чтобы удержаться на вершине, придётся масштабировать инфраструктуру, и уже построен дата-центр в Орегоне стоимостью $50 млн.

Основатели уверены, что синтез голоса останется ключевой частью мультимодальных систем. И, как подчёркивает Домбковский, их первоначальная цель - озвучивать и переводить фильмы «одним нажатием» - по-прежнему актуальна.

06:51
148
Нет комментариев. Ваш будет первым!