Что такое ИИ-агенты? Новое слово в мире искусственного интеллекта
Когда ChatGPT только появился, все эксперты в области искусственного интеллекта говорили о новом поколении AI-ассистентов. Но за прошедший год, фокус внимания сместился на новую цель – ИИ-агентов.
Агенты стали главной темой ежегодной конференции Google I/O в мае, где компания представила своего нового ИИ-агента Astra. Эта система позволяет пользователям взаимодействовать с ней с помощью аудио и видео. Новая модель GPT-4o от OpenAI также была названа ИИ-агентом.
И это не просто громкие слова, хотя, конечно, не обошлось без некоторой шумихи. Технологические компании вкладывают огромные средства в создание ИИ-агентов, и их исследования могут привести к появлению того полезного ИИ, о котором мы мечтали десятилетиями. Многие эксперты, включая Сэма Альтмана, считают, что за этим будущее.
Но что же такое ИИ-агенты? И как мы можем их использовать?
Как определить ИИ-агента?
Исследования в области ИИ-агентов находятся на ранней стадии, и в этой сфере пока нет четкого определения. Но если говорить просто, это модели и алгоритмы ИИ, способные автономно принимать решения в динамично меняющемся мире, как объясняет Джим Фан (Jim Fan), старший научный сотрудник Nvidia, возглавляющий инициативу компании по ИИ-агентам.
Грандиозное видение ИИ-агентов – это система, способная выполнять широкий спектр задач, почти как человек-ассистент. В будущем она сможет помочь вам забронировать отпуск, при этом помня о ваших предпочтениях. Например, если вы любите роскошные отели, система будет предлагать только варианты с четырьмя и более звездами, а затем забронирует тот, который вы выберете из предложенных. Затем она подберет рейсы, наиболее подходящие вашему расписанию, и составит план поездки с учетом ваших интересов. Агент сможет составить список вещей для упаковки на основе этого плана и прогноза погоды. Он даже может отправить ваш маршрут друзьям, которые, как ему известно, живут в пункте назначения, и пригласить их присоединиться. На работе такой агент мог бы анализировать ваш список дел и выполнять задачи из него, например, отправлять приглашения на встречи, составлять памятки или писать электронные письма.
Одно из представлений об агентах заключается в том, что они мультимодальны, то есть могут обрабатывать язык, аудио и видео. Например, в демонстрации Google Astra пользователи могли направить камеру смартфона на объекты и задавать агенту вопросы. Агент мог отвечать на текстовые, аудио и видео запросы.
Такие агенты также могут оптимизировать процессы для бизнеса и государственных организаций. Например, ИИ-агент мог бы функционировать как более продвинутый чат-бот для обслуживания клиентов. Нынешнее поколение ассистентов на основе языковых моделей может только генерировать наиболее вероятное следующее слово в предложении. Но ИИ-агент будет способен автономно выполнять команды на естественном языке и обрабатывать задачи обслуживания клиентов без присмотра. Например, агент сможет анализировать электронные письма с жалобами клиентов, проверять номер заказа клиента, обращаться к базам данных, таким как системы управления взаимоотношениями с клиентами и системы доставки, чтобы определить, является ли жалоба обоснованной, и обрабатывать ее в соответствии с политикой компании.
В целом, существует две основные категории агентов: программные агенты и воплощенные агенты.
Программные агенты - работают на компьютерах или мобильных телефонах и используют приложения, как в примере с турагентом выше. Эти агенты очень полезны для офисной работы, отправки электронных писем или выполнения цепочки событий.
Воплощенные агенты – это агенты, которые находятся в трехмерном мире, например, в видеоигре или в роботе. Такие агенты могут сделать видеоигры более увлекательными, позволяя людям взаимодействовать с неигровыми персонажами, управляемыми ИИ. Подобные агенты также могут помочь создать более полезных роботов, которые смогут помогать нам с повседневными домашними делами, такими как складывание белья и приготовление еды.
Джим Фан был одним из членов команды, которая создала воплощенного ИИ-агента под названием MineDojo в популярной компьютерной игре Minecraft. Используя огромный объем данных, собранных из интернета, ИИ-агент Фана смог научиться новым навыкам и задачам, которые позволили ему свободно исследовать виртуальный трехмерный мир и выполнять сложные задания. Видеоигры хорошо имитируют реальный мир, поскольку требуют от агентов понимания физики, способности рассуждать и здравого смысла.
В новой статье, которая еще не прошла рецензирование, исследователи из Принстона утверждают, что ИИ-агенты обычно обладают тремя различными характеристиками. Системы ИИ считаются "агентными", если они могут преследовать сложные цели без инструкций в сложных средах. Они также подходят под это определение, если ими можно управлять на естественном языке и они могут действовать автономно без присмотра. И, наконец, термин "агент" может применяться к системам, которые способны использовать инструменты, такие как веб-поиск или программирование, или способны планировать.
Это что-то новое?
Термин "ИИ-агенты" существует уже много лет и в разное время означал разные вещи, говорит Чираг Шах (Chirag Shah), профессор информатики в Вашингтонском университете.
По словам Фана, было две волны агентов. Нынешняя волна связана с бумом языковых моделей и появлением таких систем, как ChatGPT.
Предыдущая волна пришлась на 2016 год, когда Google DeepMind представила AlphaGo – систему ИИ, способную играть и побеждать в игре го. AlphaGo могла принимать решения и планировать стратегии. Это основывалось на обучении с подкреплением – методе, который поощряет желательное поведение алгоритмов ИИ.
"Но эти агенты не были универсальными", - говорит Ориол Виньялс, вице-президент по исследованиям в Google DeepMind. Они создавались для очень конкретных задач – в данном случае, для игры в го. Новое поколение ИИ на основе фундаментальных моделей делает агентов более универсальными, поскольку они могут учиться на том мире, с которым взаимодействуют люди.
"Вы гораздо сильнее чувствуете, что модель взаимодействует с миром и затем дает вам лучшие ответы или лучшую помощь",- говорит Виньялс.
Каковы ограничения?
По-прежнему остается много открытых вопросов, на которые нужно ответить. Канджун Цю (Kanjun Qiu), генеральный директор и основатель стартапа Imbue, работающего над агентами, способными рассуждать и программировать, сравнивает состояние агентов с тем, где находились беспилотные автомобили чуть более десяти лет назад. Они могут что-то делать, но ненадежны и все еще не являются по-настоящему автономными. Например, агент-программист может генерировать код, но иногда делает ошибки и не знает, как протестировать созданный им код, говорит Цю. Поэтому люди все еще должны активно участвовать в процессе. Системы ИИ все еще не могут полноценно рассуждать, что является критически важным шагом для работы в сложном и неоднозначном человеческом мире.
"Мы еще очень далеки от создания агента, который мог бы просто автоматизировать все эти задачи для нас. Современные системы галлюцинируют и не всегда точно следуют инструкциям",- говорит Фан.
Еще одно ограничение заключается в том, что через некоторое время ИИ-агенты теряют представление о том, над чем они работают. Системы ИИ ограничены своими контекстными окнами, то есть объемом данных, которые они могут учитывать в любой момент времени.
"ChatGPT может программировать, но не справляется с длинными текстами. А для человека-разработчика не составляет труда работать с целым репозиторием GitHub, содержащим десятки, если не сотни строк кода",- продолжает Фан.
Чтобы решить эту проблему, Google увеличила способность своих моделей обрабатывать данные, что позволяет пользователям вести более длительные взаимодействия, в которых модели помнят больше о прошлых беседах. Компания заявила, что работает над тем, чтобы в будущем сделать свои контекстные окна бесконечными.
Для воплощенных агентов, таких как роботы, существует еще больше ограничений. Не хватает обучающих данных, и исследователи только начинают использовать мощь фундаментальных моделей в робототехнике.
Поэтому, несмотря на весь ажиотаж и волнение, стоит помнить, что исследования ИИ-агентов находятся на очень ранней стадии, и, вероятно, пройдут годы, прежде чем мы сможем в полной мере оценить их потенциал.
Могу ли я уже попробовать ИИ-агента?
В некотором роде да. Скорее всего, вы уже пользовались их ранними прототипами, такими как ChatGPT и GPT-4 от OpenAI.
"Если вы взаимодействуете с программным обеспечением, которое кажется умным, это уже своего рода агент",- говорит Цю.
Сейчас лучшие агенты, которые у нас есть, – это системы с очень узкой и специфической областью применения, такие как помощники в программировании, чат-боты для обслуживания клиентов или программное обеспечение для автоматизации рабочих процессов, например, Zapier, объясняет она. Но это далеко от универсального ИИ-агента, способного выполнять сложные задачи.
Сегодня у нас есть эти компьютеры, и они действительно мощные, но нам приходится ими микроуправлять. Плагины ChatGPT от OpenAI, позволяющие людям создавать помощников на основе ИИ для веб-браузеров, были попыткой создания агентов, но эти системы все еще неуклюжи, ненадежны и не способны рассуждать,- добавляет Цю.
Но несмотря на это, Цю считает, что эти системы однажды изменят способ нашего взаимодействия с технологиями, и это тенденция.
Оригинальную статью вы можете почитать на MIT Technology Review