Tavus представила Hummingbird-0: прорыв в технологии синхронизации губ с помощью ИИ

Tavus представила Hummingbird-0 — первую в линейке «нулевого обучения» модель, которая за минуты подгоняет движения губ в ролике под любой звуковой поток. Продукт обещает перевернуть рынок дубляжа, персонализированного контента и массовой локализации.
Tavus представила Hummingbird-0: прорыв в технологии синхронизации губ с помощью ИИ

Компания Tavus, ведущий разработчик технологий искусственного интеллекта для видеопроизводства, при поддержке инвесторов из Sequoia анонсировала запуск Hummingbird-0 — передовой модели синхронизации губ, которая обещает изменить подход к созданию видеоконтента.

Эта технология позволяет синхронизировать движения губ в видео с любой аудиодорожкой, обеспечивая естественный и реалистичный результат без необходимости длительной настройки.

Новый стандарт в синхронизации губ

Hummingbird-0, созданная на основе компонентов флагманской модели Tavus Phoenix-3, работает в режиме «zero-shot». Это означает, что для создания синхронизированного видео достаточно загрузить короткий видеоролик с говорящим человеком и аудиодорожку — никакого предварительного обучения или ручной обработки не требуется.

Как отмечает BusinessWire, модель открывает двери для высококачественного пользовательского контента, дубляжа на иностранные языки и массового производства персонализированных видео.

Эффи Гоенаван, руководитель продукта Tavus, подчеркнула:

«Технология синхронизации губ существует уже давно, но до сих пор её качество оставляло желать лучшего, будь то открытые или коммерческие решения. Hummingbird-0 предоставляет разработчикам модель мирового уровня, которая поднимает творческие возможности на новый уровень»

Технические характеристики и производительность

Hummingbird-0 поддерживает широкий спектр форматов входных данных, включая видео (MP4, MOV, WEBM, M4V, GIF) и аудио (MP3, OGG, WAV, M4A, AAC). Выходное видео генерируется в формате MP4 с частотой 25 кадров в секунду и разрешением до 1080p. Максимальная длительность обрабатываемого видео составляет 5 минут, а время генерации — около 1 минуты на 10 секунд видео.

Производительность модели подтверждена тестированием на более чем 30 разнообразных видеороликах. Hummingbird-0 демонстрирует выдающиеся результаты по сравнению с конкурентами, что отражено в следующих метриках:

Метрика

Значение

Преимущество над конкурентами

FID score63.92На 37% лучше
LSE-D score6.74На 7% лучше
Arcface score0.84На 7% лучше

Эти показатели подчеркивают высокую точность синхронизации, сохранение идентичности лица и качество изображения, что делает Hummingbird-0 лидером на рынке (Tavus Methodology).

Доступность и стоимость

Hummingbird-0 находится в стадии исследовательского превью и доступна для разработчиков, создателей контента и видеокоманд через Tavus Developer Platform, API Tavus и галерею моделей FAL. Стоимость использования начинается от $1.50 за минуту на платформе Tavus и $2.1 за минуту через FAL, с минимальной тарификацией в 15 секунд. Модель поддерживает коммерческое использование, что делает её привлекательной для бизнеса.

Применение в различных отраслях

Hummingbird-0 открывает широкие возможности для применения в самых разных сферах:

  • AI-киностудии: создание сцен с переозвучкой, где персонажи выглядят так, будто говорят на другом языке.
  • Пользовательский контент и реклама: персонализированные видео для инфлюенсеров, брендов и маркетинговых кампаний.
  • Корпоративный контент: локализация обучающих видео, презентаций и корпоративных материалов.
  • Перевод и дубляж: поддержка более 30 языков для перевода видео с сохранением естественности.
  • Редактирование видео: исправление слов или фраз в готовых роликах без необходимости перезаписи.
  • Креативный контент: создание мемов и вирусных видео для социальных сетей.

«Hummingbird-0 — это лишь начало наших возможностей в развитии человеческого слоя ИИ», — заявил генеральный директор Tavus, подчеркивая амбиции компании в создании технологий, максимально приближенных к человеческому взаимодействию.

Ограничения технологии

Несмотря на свои преимущества, Hummingbird-0 имеет определённые ограничения. Модель оптимально работает с видео, где один человек говорит лицом к камере при хорошем освещении и высоком разрешении. Видео же низкого качества, с несколькими людьми в кадре или стилизованные, например, в формате аниме, могут привести к снижению точности синхронизации. Эти аспекты важно учитывать при планировании использования технологии.

Этика и безопасность

Tavus осознаёт потенциальные риски, связанные с использованием передовых технологий ИИ, таких как создание дипфейков. Для предотвращения злоупотреблений компания внедряет следующие меры:

  • Системы обнаружения злоупотреблений: внутренние механизмы мониторинга использования модели.
  • Водяные знаки: разработка технологий для маркировки сгенерированного контента.
  • Политики модерации: планы по внедрению фильтров для контроля выходного контента.

Эти шаги направлены на обеспечение ответственного использования Hummingbird-0 и минимизацию этических рисков.

Перспективы развития

Релиз Hummingbird-0 — это лишь первый шаг в амбициозных планах Tavus по развитию технологий ИИ для видео. Компания продолжает совершенствовать свои модели, стремясь к созданию решений, которые сделают взаимодействие с ИИ ещё более естественным и человечным.

«Как только разработчики попробуют Hummingbird-0, они захотят узнать больше о возможностях всей нашей линейки моделей», — отметила Эффи Гоенаван, намекая на будущие инновации.

Дополнительные ресурсы

Для тех, кто хочет глубже изучить Hummingbird-0, Tavus предоставляет следующие материалы:

Заключение

Hummingbird-0 от Tavus устанавливает новый стандарт в области синхронизации губ, предлагая разработчикам и создателям контента мощный и удобный инструмент для производства реалистичных видео. Высокая производительность, простота использования и широкий спектр применений делают модель уникальной на рынке. 

В то же время Tavus активно работает над решением этических вопросов, чтобы технология использовалась ответственно. Hummingbird-0 — это не только технологический прорыв, но и шаг к будущему, где ИИ станет неотъемлемой частью видеопроизводства.

16:20
105
Нет комментариев. Ваш будет первым!
Яндекс.Метрика