OpenAI представила новые модели улучшенной транскрипции и генерации реалистичного голоса

Модели способны воспринимать речь в шумной среде и воспроизводить интонации почти как у живого человека. Эти технологии могут изменить то, как мы взаимодействуем с машинами — от субтитров и голосовых помощников до автономных ИИ-агентов.
OpenAI представила новые модели улучшенной транскрипции и генерации реалистичного голоса

Сегодня компания OpenAI анонсировала выпуск новых моделей, предназначенных для высокоточной транскрипции речи и реалистичной генерации синтетического голоса. Разработка сразу вызвала оживление в профессиональной среде — как среди разработчиков, так и среди исследователей искусственного интеллекта.

Распознавание речи: точность даже в шуме

Модели gpt-4o-transcribe и её облегчённая версия gpt-4o-mini-transcribe показывают выдающиеся результаты в расшифровке устной речи в текст. По заявлениям разработчиков, эти модели способны значительно точнее распознавать слова даже при сильных помехах — например, при фоновых звуках и шумов, нестандартных акцентах или быстрой речи. Теперь это делает их особенно ценными для большинства задач:

  • создания субтитров в реальном времени,
  • автоматического протоколирования звонков и встреч,
  • транскрибирования подкастов или лекций.

«Речь стала по-настоящему доступной машине — в любых условиях», — комментирует один из инженеров OpenAI.

Генерация речи: почти как человек

Кроме транскрибации, OpenAI также представила новую версию технологии text-to-speech — преобразования текста в синтетическую речь. Эти голоса теперь звучат заметно естественнее, с ярко выраженной эмоциональной окраской и вариативной интонацией. Их сложно отличить от настоящей речи даже при внимательном прослушивании.

Разработчики подчеркивают, что новая технология может использоваться в самых разных областях:

  • голосовые помощники и чат-боты,
  • озвучка видео и аудиокниг,
  • приложения для изучения иностранных языков,
  • средства коммуникации для людей с нарушениями речи.

Agentic AI — шаг к автономному ИИ

Представленные инструменты — часть более широкой стратегии OpenAI, которую в компании называют Agentic AI. Это концепция создания интеллектуальных агентов, способных действовать самостоятельно в интересах пользователя. Такие системы смогут:

  • принимать решения на основе диалога,
  • анализировать большие массивы аудиоданных,
  • и даже вести переговоры от имени пользователя.

Другими словами, ИИ превращается не просто в инструмент, а в полноценного цифрового представителя человека.

Глобальное внедрение и конкуренция

Новые модели уже доступны через API компании, и разработчики по всему миру начинают внедрять их в свои проекты. Эксперты считают это обновление сильным ходом OpenAI в соперничестве с такими игроками, как ElevenLabs и Google, активно продвигающими свои голосовые технологии. По мнению аналитиков, подобные новшества способны в ближайшие годы полностью перевернуть наше взаимодействие с машинами.

«Речь — один из последних барьеров между человеком и машиной. Если ИИ начнет понимать и говорить как человек, это будет настоящим сдвигом», — считает аналитик из Университета Карнеги — Меллона.

От доступности до развлечений

Разработчики уже делятся первыми идеями по применению новых технологий:

  • Для слабослышащих и глухих — автоматические субтитры и трансляции речи в текст.
  • В образовании — живые диалоги с ИИ на иностранном языке.
  • В журналистике и на телевидении — автоматическая озвучка и транскрипция.
  • В играх и подкастах — реалистичные персонажи с выразительными голосами.

Скоро мы можем увидеть ещё более впечатляющие решения — например, безупречные переводчики, улавливающие каждый нюанс речи в реальном времени, или голосовые ассистенты, которые предугадывают наши желания лучше, чем близкие друзья.

Интересный факт

Первый синтезатор речи, созданный в 1961 году, произнёс «Дейзи, Дейзи» на конференции Bell Labs. Сегодняшние технологии ушли далеко вперёд — теперь они способны воспроизвести эмоции, акценты и даже индивидуальные речевые особенности.

05:15
907
Нет комментариев. Ваш будет первым!
Яндекс.Метрика