ElevenLabs внедрила свои LLM в платформу Agents - разговорные ИИ стали быстрее и дешевле

Компания ElevenLabs, хорошо известная своими реалистичными голосами, решила пойти дальше — теперь она хостит собственные большие языковые модели (LLM) прямо внутри своей платформы Agents. Это значит, что теперь голосовые агенты смогут общаться без ощутимых задержек, экономнее расходовать ресурсы и обходиться без внешних API.
Всё, что раньше зависело от цепочки сторонних сервисов — распознавание речи (STT), генерация текста (LLM) и озвучка (TTS) — теперь выполняется в едином контуре ElevenLabs. Результат — почти мгновенный отклик, повышенная стабильность и улучшенная защита данных.
По сути, компания создала экосистему, где голос, понимание и действие работают как единое целое.
Две основные модели
ElevenLabs делает ставку на две ключевые модели — GLM-4.5 Air и Qwen3-30B-A3B.
Первая, GLM-4.5 Air, создана китайской компанией Zhipu AI. Это смесь экспертов (MoE) с общей ёмкостью в 106 миллиардов параметров, из которых активно задействуются лишь 12 миллиардов. Модель специально оптимизирована под инструментальные вызовы, веб-поиск, кодинг и логические рассуждения.
Компания утверждает, что при работе с агентами GLM-4.5 Air показывает «уровень топ-моделей», но при этом обходится примерно в три раза дешевле аналогов.
Вторая — Qwen3-30B-A3B от команды Alibaba Qwen. Её архитектура насчитывает 30,5 млрд параметров, 48 слоёв и 128 экспертов, из которых одновременно задействуются восемь. Главная фишка — поддержка контекста до 131 тысячи токенов и очень быстрое время отклика: менее 150 миллисекунд до первой реплики. Это делает модель идеальной для лёгких диалоговых сценариев и задач рассуждения в реальном времени.
В документации ElevenLabs также упоминается и GPT-OSS-120B — открытая LLM на 120 миллиардов параметров, которую компания тоже разместила у себя на серверах. Все эти модели — open-source, что даёт разработчикам возможность тонко настраивать агентов под собственные сценарии.
Цифры, которые говорят сами за себя
В свежем сравнительном графике ElevenLabs показывает, что её LLM выигрывают у проприетарных решений по ключевым метрикам.
| Показатель | GLM-4.5 Air | Qwen3-30B-A3B | Проприетарные LLM |
|---|---|---|---|
| Стоимость на минуту | $0,0029 (≈0,27 ₽) | $0,00092 (≈0,085 ₽) | $0,0025 (≈0,23 ₽) |
| Задержка (p50) | 0,13 сек | 0,82 сек | 1,72 сек |
| Точность многоходовых функций | 54,8% | 34,5% | 62,5% |
Да, по точности фирменные модели пока чуть впереди, но зато скорость и стоимость у новых решений ElevenLabs заметно лучше — а именно эти параметры критичны для приложений в реальном времени.
Что умеет платформа Agents
Платформа Agents предназначена для быстрой сборки разговорных ИИ-систем, которые поддерживают 32 языка и умеют автоматически переключаться между ними.
Агенты могут интегрироваться с базами знаний (RAG), внешними инструментами и сервисами вроде Salesforce, Stripe или Twilio. Это делает их полезными не только в службах поддержки, но и в продажах, обучении, внутренней автоматизации компаний.
Стоимость использования Agents стартует от $0,08 (≈7,4 ₽) за минуту при годовых планах. Дополнительные расходы на LLM составляют от 10 до 30% от общей суммы — в зависимости от выбранной модели. Для стартапов действует грантовая программа, предлагающая три месяца бесплатного доступа.
Глобальный контекст
По сути, ElevenLabs делает то, к чему стремится весь рынок: объединить в одной системе понимание речи, рассуждения и действия. Раньше компания ассоциировалась прежде всего с клонированием голоса и TTS, но теперь она уверенно выходит в зону конкуренции с OpenAI Realtime API и другими игроками, где скорость реакции и экономия ресурсов решают всё.
Это обновление подчеркивает главный вектор развития ИИ-индустрии — переход от разрозненных компонентов к интегрированным экосистемам, где интеллект не просто отвечает, а думает и говорит в реальном времени.


