OpenAI перестраивает голосовой API

OpenAI вывела в API сразу три голосовые модели: для живого диалога с действиями, перевода речи и потоковой транскрипции. В релизе заметна ставка на голосовых агентов, которые должны вести пользователя через задачу, а не ограничиваться быстрыми репликами.
OpenAI перестраивает голосовой API

OpenAI 7 мая 2026 года представила три аудиомодели для Realtime API: GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper. Первая отвечает за живой голосовой диалог и вызов инструментов, вторая переводит речь в реальном времени, третья расшифровывает аудио по мере разговора.

Голосовой агент должен закрывать задачу

OpenAI собирает релиз вокруг одной идеи: голосовой интерфейс должен работать как вход в продукт. Пользователь говорит задачу, система удерживает контекст, обращается к внешним инструментам и возвращает результат голосом.

Компания описывает три рабочих паттерна. Первый - голосовое действие, когда человек просит найти жильё, изменить заказ или запланировать встречу. Второй - озвучивание данных из сервиса: например, туристическое приложение сообщает о задержке рейса и предлагает новый маршрут по аэропорту. Третий - разговор между людьми на разных языках с переводом в реальном времени.

Подбор партнёров показывает, где OpenAI ждёт первые деньги от голосового API. Zillow тестирует помощника для поиска жилья и записи на просмотр. Deutsche Telekom проверяет многоязычную поддержку. Priceline смотрит на голос как на способ управлять поездкой: искать билеты и отели, менять бронирования, получать обновления по аэропорту.

Это прагматичные кейсы. В них голос ценен не красотой синтеза, а способностью довести звонок или сессию до понятного результата.

GPT-Realtime-2 получила память на длинный разговор

Главная модель релиза - GPT-Realtime-2. OpenAI называет её первой голосовой моделью компании с рассуждением уровня GPT-5-класса. Она рассчитана на ситуации, где пользователь перебивает, меняет условия, называет специальные термины и ждёт, что агент не потеряет ход разговора.

Модель умеет произносить короткие служебные фразы перед ответом: «сейчас проверю», «одну секунду». Для живого звонка это мелочь только на бумаге. Молчание в голосовом интерфейсе быстро воспринимается как сбой, поэтому такие фразы превращаются в часть пользовательского опыта.

Разработчики получили параллельный вызов инструментов и голосовую прозрачность действий. Агент может одновременно обращаться к календарю, базе заказов или поиску и проговаривать, что именно он проверяет. OpenAI также заявляет более устойчивое восстановление после ошибок: модель должна объяснять проблему, вместо того чтобы резко обрывать диалог.

Контекстное окно выросло с 32 тысяч до 128 тысяч токенов. Для голосовых продуктов это снижает риск, что агент забудет детали длинного обращения: имя клиента, условия задачи, ограничения по времени, профессиональную лексику или предыдущие исправления.

OpenAI добавила уровни рассуждения: minimal, low, medium, high и xhigh. По умолчанию стоит low. Простой звонок можно вести быстрее, сложный сценарий - отдавать модели с более глубоким рассуждением и большей задержкой.

Тесты показывают рост, но проверка будет в звонках

OpenAI приводит две оценки. GPT-Realtime-2 в режиме high набрала на 15,2% больше GPT-Realtime-1.5 в Big Bench Audio. В режиме xhigh модель оказалась на 13,8% выше в Audio MultiChallenge, где проверяются многоходовые голосовые диалоги, следование инструкциям и работа с естественными исправлениями речи.

В новости есть более полезный ориентир - тест Zillow. По словам Джоша Вайсберга, старшего вице-президента и руководителя ИИ-направления компании, GPT-Realtime-2 после оптимизации промпта подняла успешность звонков на их сложном adversarial-бенчмарке с 69% до 95%. Он также выделил более устойчивое соблюдение требований Fair Housing, американского законодательства о недискриминации при продаже и аренде жилья.

Для рынка такая метрика говорит больше, чем демонстрация красивого голоса. В реальном сервисе агент оценивается по завершённой задаче, корректному вызову инструмента, соблюдению правил и поведению в спорных ситуациях.

Перевод и Whisper закрывают соседние сценарии

GPT-Realtime-Translate переводит речь из более чем 70 входных языков в 13 выходных языков. Модель должна сохранять темп живого разговора и одновременно давать текстовую расшифровку. OpenAI перечисляет поддержку клиентов, международные продажи, образование, мероприятия, медиа и платформы для авторов.

BolnaAI тестировала модель на хинди, тамильском и телугу. Сооснователь и технический директор компании Пратек Сачан заявил, что GPT-Realtime-Translate показала на 12,5% более низкий Word Error Rate, чем другие проверенные модели. Word Error Rate - доля ошибок в распознавании или передаче слов; для языков с сильными региональными особенностями этот показатель быстро становится продуктовой проблемой.

GPT-Realtime-Whisper решает более спокойную, но массовую задачу: потоковое преобразование речи в текст. Модель расшифровывает аудио во время разговора, поэтому её можно использовать для субтитров, заметок встреч, трансляций, учебных занятий, звонков поддержки, рекрутинга и медицинских процессов.

Здесь сильная сторона релиза в разделении задач. OpenAI не пытается упаковать весь голосовой стек в одну универсальную модель. Для разработчика это проще считать, тестировать и подключать.

Цена уже похожа на продуктовую экономику

Все три модели доступны в Realtime API. GPT-Realtime-2 стоит $32 за 1 млн входных аудиотокенов и $64 за 1 млн выходных аудиотокенов. Кэшированный ввод обходится в $0,40 за 1 млн токенов. GPT-Realtime-Translate стоит $0,034 за минуту, GPT-Realtime-Whisper - $0,017 за минуту.

По официальному курсу Банка России на 8 мая 2026 года, $1 равен 74,6209 рубля. В пересчёте это примерно 2388 рублей за 1 млн входных аудиотокенов GPT-Realtime-2, 4776 рублей за 1 млн выходных аудиотокенов, около 30 рублей за 1 млн кэшированных входных токенов, 2,54 рубля за минуту перевода и 1,27 рубля за минуту транскрипции.

Цифры показывают разрыв между сценариями. Транскрипция и перевод выглядят доступными для массового тестирования. Полноценный голосовой агент с рассуждением и длинными сессиями потребует аккуратного расчёта нагрузки, особенно в поддержке с большим числом звонков.

Безопасность остаётся частью продукта

OpenAI пишет, что Realtime API использует несколько уровней защитных механизмов. Сессии могут проверяться активными классификаторами, а разговоры, нарушающие правила по вредоносному контенту, могут быть остановлены. Разработчики также обязаны ясно сообщать пользователям, что те взаимодействуют с ИИ, если это не очевидно из контекста.

Для европейских приложений Realtime API поддерживает EU Data Residency - хранение и обработку данных в рамках европейской инфраструктуры OpenAI. Модели также покрываются корпоративными обязательствами OpenAI по приватности.

Главная проверка начнётся за пределами демо. Голосовой агент должен выдерживать шум, акценты, злых клиентов, юридические ограничения и длинные цепочки действий. Если GPT-Realtime-2 справится именно там, релиз станет для OpenAI входом в рынок телефонной поддержки, туристических сервисов и корпоративных ассистентов. Пока это сильная заявка с понятной ценой и открытым вопросом: насколько стабильно модели будут вести себя в продакшене.

12:15
149
Нет комментариев. Ваш будет первым!