Google Gemini Live: голосовой ИИ-помощник впечатляет, но оставляет желать лучшего
Google анонсировала функцию Gemini Live во время мероприятия Made by Google. Новая технология позволяет пользователям вести полуестественный разговор с ИИ-ботом, используя голосовые команды вместо текста. Чатбот работает на базе новейшей языковой модели Google.
Gemini Live является ответом Google на функцию Advanced Voice Mode от OpenAI, которая в настоящее время находится на стадии альфа-тестирования. Хотя OpenAI первой продемонстрировала подобную технологию, Google стала первой компанией, выпустившей финальную версию продукта.
По мнению журналистов, голосовое взаимодействие с Gemini Live ощущается более естественным, чем общение с ChatGPT через текст или использование голосовых помощников Siri и Alexa. Gemini Live отвечает на вопросы менее чем за две секунды и способен быстро переключаться между темами при прерывании.
Как работает Gemini Live
Перед началом разговора с Gemini Live пользователь может выбрать один из десяти голосов, созданных с участием профессиональных актеров озвучивания. Для сравнения, у OpenAI доступно всего три голоса. Журналисты отметили, что все голоса звучат очень естественно.
В ходе демонстрации менеджер по продукту Google попросил Gemini Live найти семейные винодельни рядом с Маунтин-Вью, имеющие открытые площадки и детские игровые зоны поблизости. Это гораздо более сложная задача, чем обычно задают Siri или даже Google Search. Gemini успешно справился, порекомендовав винодельню Cooper-Garrod Vineyards в Саратоге.
Однако система не лишена недостатков. Она, по-видимому, выдала ложную информацию о несуществующей детской площадке Henry Elementary School Playground, якобы находящейся в 10 минутах от винодельни. На самом деле ближайшая школа с таким названием находится более чем в двух часах езды.
Google подчеркивает возможность прерывать Gemini Live на полуслове, после чего ИИ быстро переключается на новую тему. Компания утверждает, что это позволяет пользователям контролировать разговор. На практике эта функция работает не идеально – иногда менеджеры проекта Google и Gemini Live говорили одновременно, и ИИ не всегда успевал уловить сказанное.
Стоит отметить, что Google не позволяет Gemini Live петь или имитировать голоса за пределами предоставленных десяти вариантов. По словам менеджера по продукту Леланда Речиса, это сделано во избежание проблем с авторскими правами. Кроме того, Речис сообщил, что Google не стремится научить Gemini Live распознавать эмоциональные интонации в голосе пользователя, в отличие от OpenAI, которая хвасталась такой возможностью во время своей демонстрации.
Исходя из вышесказанного, можно сделать вывод, что функция представляется отличным способом более естественного и глубокого изучения тем, чем это возможно с помощью обычного Google Search. Разработчик отмечает, что Gemini Live – это шаг на пути к Project Astra, полностью мультимодальной модели ИИ, представленной компанией на конференции Google I/O. На данный момент Gemini Live способен только на голосовые беседы, но в будущем Google планирует добавить возможность анализа видео в реальном времени.