OpenAI представляет обновление Operator: новый уровень взаимодействия с браузером благодаря модели o3

OpenAI совершила важный шаг в развитии искусственного интеллекта, представив обновлённую версию своего ИИ-агента Operator, который теперь интегрирован с мощной моделью o3. Это обновление значительно улучшило способность Operator самостоятельно взаимодействовать с веб-страницами, выполняя широкий спектр действий, от кликов и прокрутки до ввода текста.
Улучшения и производительность
Согласно официальному заявлению OpenAI, обновлённый Operator стал более устойчивым и точным при взаимодействии с браузером, что привело к увеличению процента успешного выполнения задач. Ответы агента теперь стали более ясными, подробными и структурированными.
График, опубликованный OpenAI, демонстрирует значительное улучшение по сравнению с предыдущей версией CUA 4o. Оценка проводилась по пяти категориям, и новая версия CUA o3 показала превосходство:
- Стиль: CUA o3 превосходит CUA 4o примерно на 90%.
- Понятность: Показатель составляет около 85%, что указывает на улучшенное восприятие ответов пользователями.
- Ясность: CUA o3 выигрывает примерно в 80% случаев, подтверждая более чёткую и структурированную подачу информации.
- Следование инструкциям: Прогресс на уровне 70%.
- Эффективность: Около 65% пользователей предпочли новую версию, что говорит об улучшении скорости и качества выполнения задач.
- Фактическая точность: Преимущество CUA o3 составляет около 60%, что указывает на снижение ошибок в ответах.
Эти данные подчёркивают, что обновление сделало Operator более удобным и надёжным инструментом, особенно для задач, требующих точного взаимодействия с веб-средой.
Технические достижения и бенчмарки
Operator уже зарекомендовал себя, демонстрируя высокие результаты на различных бенчмарках. Он достиг 58,1% успешности на WebArena и 87% на WebVoyager, став одним из лидеров в области веб-навигации среди ИИ-агентов. Однако в более сложных задачах WebArena всё ещё есть потенциал для улучшений, особенно в сравнении с человеческим уровнем производительности (72,4%).
Агент также тестировался в бенчмарке OSWorld, оценивающем способность ИИ управлять полноценными компьютерными системами (Ubuntu, Windows, macOS). Здесь Operator достиг 38,1% успешности, что является значительным достижением для ИИ, хотя и уступает человеческому уровню. Примечательно, что производительность агента растёт с увеличением числа шагов обработки, что указывает на потенциал для дальнейшего масштабирования.
Безопасность и конфиденциальность
OpenAI подчёркивает, что безопасность остаётся приоритетом в разработке Operator. Агент запрашивает подтверждение пользователя перед выполнением операций, связанных с вводом учётных данных или прохождением CAPTCHA. Пользователи могут отключить использование данных для обучения моделей через настройки ChatGPT, а вся история браузера и данные могут быть удалены одним кликом. OpenAI также внедрила защиту от вредоносных сайтов, которые могут пытаться обмануть агента с помощью скрытых подсказок или фишинговых атак.
Доступность и планы на будущее
На данный момент Operator остаётся в статусе исследовательского превью и доступен только для пользователей ChatGPT Pro по всему миру. OpenAI продолжает собирать обратную связь для дальнейших улучшений, что может привести к расширению доступа в будущем. Компания также рассматривает применение Operator в более широких контекстах, например, для упрощения взаимодействия с государственными сервисами, как это уже тестируется в городе Стоктон, США.
Важность для рынка ИИ
Обновление Operator демонстрирует, как ИИ-агенты могут становиться всё более автономными и полезными в реальных задачах. Способность взаимодействовать с цифровыми интерфейсами, как это делают люди, открывает новые горизонты для автоматизации. Operator может упрощать рутинные задачи, такие как поиск информации, заполнение форм или навигация по сложным сайтам, что особенно актуально для бизнеса и государственных структур.
«Operator с моделью o3 — это шаг вперёд в создании ИИ, который может не просто понимать команды, но и активно взаимодействовать с цифровым миром так, как это делают люди. Мы видим огромный потенциал для дальнейшего развития»,— заявляют в OpenAI.
Успехи Operator в бенчмарках, таких как WebArena и WebVoyager, показывают, что ИИ способен справляться с задачами, которые ранее считались исключительно человеческими. Это может ускорить внедрение подобных технологий в повседневную жизнь, от автоматизации офисных процессов до создания более интуитивных пользовательских интерфейсов.
Обновление Operator от OpenAI с интеграцией модели o3 подтверждает лидерство компании в области ИИ-автоматизации. Улучшенная производительность, повышенная точность и внимание к безопасности делают этот инструмент перспективным решением для пользователей ChatGPT Pro. В будущем Operator может стать неотъемлемой частью нашей цифровой жизни, упрощая взаимодействие с веб-сервисами и компьютерными системами.