Google Gemini Live: голосовой ИИ-помощник впечатляет, но оставляет желать лучшего

Google представила Gemini Live — новую функцию, позволяющую вести голосовой диалог с ИИ. Первые отзывы показали, что эта функция работает быстрее и естественнее, чем Siri или Alexa, но все же не лишена недостатков.
Google Gemini Live: голосовой ИИ-помощник впечатляет, но оставляет желать лучшего

Google анонсировала функцию Gemini Live во время мероприятия Made by Google. Новая технология позволяет пользователям вести полуестественный разговор с ИИ-ботом, используя голосовые команды вместо текста. Чатбот работает на базе новейшей языковой модели Google.

Gemini Live является ответом Google на функцию Advanced Voice Mode от OpenAI, которая в настоящее время находится на стадии альфа-тестирования. Хотя OpenAI первой продемонстрировала подобную технологию, Google стала первой компанией, выпустившей финальную версию продукта.

По мнению журналистов, голосовое взаимодействие с Gemini Live ощущается более естественным, чем общение с ChatGPT через текст или использование голосовых помощников Siri и Alexa. Gemini Live отвечает на вопросы менее чем за две секунды и способен быстро переключаться между темами при прерывании.

Как работает Gemini Live

Перед началом разговора с Gemini Live пользователь может выбрать один из десяти голосов, созданных с участием профессиональных актеров озвучивания. Для сравнения, у OpenAI доступно всего три голоса. Журналисты отметили, что все голоса звучат очень естественно.

В ходе демонстрации менеджер по продукту Google попросил Gemini Live найти семейные винодельни рядом с Маунтин-Вью, имеющие открытые площадки и детские игровые зоны поблизости. Это гораздо более сложная задача, чем обычно задают Siri или даже Google Search. Gemini успешно справился, порекомендовав винодельню Cooper-Garrod Vineyards в Саратоге.

Однако система не лишена недостатков. Она, по-видимому, выдала ложную информацию о несуществующей детской площадке Henry Elementary School Playground, якобы находящейся в 10 минутах от винодельни. На самом деле ближайшая школа с таким названием находится более чем в двух часах езды.

Google подчеркивает возможность прерывать Gemini Live на полуслове, после чего ИИ быстро переключается на новую тему. Компания утверждает, что это позволяет пользователям контролировать разговор. На практике эта функция работает не идеально – иногда менеджеры проекта Google и Gemini Live говорили одновременно, и ИИ не всегда успевал уловить сказанное.

Стоит отметить, что Google не позволяет Gemini Live петь или имитировать голоса за пределами предоставленных десяти вариантов. По словам менеджера по продукту Леланда Речиса, это сделано во избежание проблем с авторскими правами. Кроме того, Речис сообщил, что Google не стремится научить Gemini Live распознавать эмоциональные интонации в голосе пользователя, в отличие от OpenAI, которая хвасталась такой возможностью во время своей демонстрации.

Исходя из вышесказанного, можно сделать вывод, что функция представляется отличным способом более естественного и глубокого изучения тем, чем это возможно с помощью обычного Google Search. Разработчик отмечает, что Gemini Live – это шаг на пути к Project Astra, полностью мультимодальной модели ИИ, представленной компанией на конференции Google I/O. На данный момент Gemini Live способен только на голосовые беседы, но в будущем Google планирует добавить возможность анализа видео в реальном времени.

Видео
13:05
54
Google
Google — это глобальная технологическая компания, основанная 4 сентября 1998 года Ларри Пейджем и Сергеем Брином в Калифорнии.
Нет комментариев. Ваш будет первым!
Посещая этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.