Nvidia представила Parakeet TDT 0.6B — сверхбыструю модель распознавания речи с открытым кодом

На днях компания Nvidia представила новую модель автоматического распознавания речи Parakeet TDT 0.6B. Модель с открытым исходным кодом уже возглавила рейтинг Open ASR Leaderboard на платформе Hugging Face и обещает стать важной вехой в развитии технологий обработки аудио.
Nvidia представила Parakeet TDT 0.6B — сверхбыструю модель распознавания речи с открытым кодом

​Мгновенная транскрибация и высокая точность

Parakeet TDT 0.6B — это модель с 600 миллионами параметров, созданная на базе фреймворка Nvidia NeMo. Она способна транскрибировать до 60 минут аудио всего за секунду, что делает её одной из самых быстрых среди аналогов. При этом модель не просто «переводит» речь в текст: она расставляет знаки препинания, использует заглавные буквы и точно определяет временные метки — важный инструмент для создания субтитров или анализа аудиофайлов.

Ключ к высокой точности — масштабное обучение. Для тренировки Parakeet использовался набор данных Granary, включающий около 120 000 часов англоязычной речи.

Первое место в рейтинге и открытая лицензия

Parakeet TDT 0.6B заняла первое место в рейтинге Open ASR Leaderboard, оставив позади не только другие открытые модели, но и решения от крупных технологических компаний. Эксперты отмечают: сочетание точности и скорости стало определяющим фактором.

Рейтинг

Модель распространяется под лицензией CC-BY-4.0. Это означает, что её можно использовать в коммерческих целях при условии указания авторства. Такой шаг открывает доступ к технологии как крупным компаниям, так и небольшим разработчикам. Впрочем, обсуждения юридических аспектов использования подобных моделей пока не утихают — остаётся открытым вопрос, должны ли производные продукты публиковаться с такими же условиями.

Реакция индустрии: интерес и ожидание

Объявление о запуске вызвало заметный интерес в техническом сообществе. Специалисты обсуждают потенциал модели и задаются вопросами о возможности её запуска на локальных GPU, например на RTX 3090, а также о будущем появлении более лёгких версий. Пока официальные ответы не прозвучали, но оживление вокруг релиза очевидно.

Технологический скачок

Модель достигает обратного коэффициента реального времени (RTFx) выше 2000, а в некоторых конфигурациях — до 6000. Это означает, что Parakeet способна распознавать аудио в тысячи раз быстрее, чем оно воспроизводится.

Подобная производительность открывает новые возможности в таких областях, как медиа (автосубтитры), образование (распознавание лекций), клиентский сервис (обработка звонков в реальном времени).

Часть большой системы

Parakeet — не изолированная разработка. Она входит в экосистему Nvidia NeMo и может стать основой для более комплексных решений, таких как мультиязычные платформы на базе Nvidia Riva. Ранее компания уже представила модель Canary, способную распознавать речь на нескольких языках с сохранением пунктуации, что подчёркивает амбиции в направлении мультиязычного ИИ.

Мировая конкуренция и перспективы

На фоне растущей конкуренции Nvidia делает ставку на скорость, точность и открытость. Параллельно над подобными системами работают и в других странах: в Индии, например, развивают национальные решения для местных языков. Однако Parakeet пока удерживает лидерство — не в последнюю очередь благодаря публичному доступу и технической мощи.

Nvidia задаёт новый стандарт

С релизом Parakeet TDT 0.6B компания Nvidia вновь подтвердила свои амбиции в сфере искусственного интеллекта. Новая модель не просто задаёт стандарт — она показывает, как быстро технологии могут изменить подход к обработке речи. Для бизнеса это — шанс ускорить процессы. Для пользователей — шаг к более доступному и понятному контенту.

19:50
153
NVIDIA
NVIDIA Corporation одна из ведущих технологических компаний в мире, известная своими инновациями в области графических процессоров и технологий искусственного интеллекта.
Нет комментариев. Ваш будет первым!
Яндекс.Метрика