SIMA 2 от Google DeepMind: ИИ, который понимает игры и учится в виртуальных мирах

В DeepMind вывели своих виртуальных агентов на новый уровень, представив SIMA 2 — расширенную версию SIMA (Scalable Instructable Multiworld Agent). Если первая модель умела уверенно выполнять более шести сотен базовых навыков вроде «повернуть налево» или «открыть карту», то её преемник работает заметно глубже. Агент не просто движется по инструкции, а оценивает ситуацию, выстраивает цепочку действий и объясняет, почему делает тот или иной шаг.
В основе архитектуры — Gemini, который отвечает за восприятие, понимание и принятие решений. Благодаря этому SIMA 2 поддерживает общение в нескольких форматах: текст, голос и даже изображения. Это заметно расширяет способы взаимодействия — от простых подсказок до полноценного диалога о том, что происходит на экране.
Новый уровень обобщения
Одним из основных прорывов стала способность агента связывать похожие задачи в разных играх. Если он научился «добывать ресурс» в одном мире, то может применить похожую логику для «сбора урожая» в совершенно иной среде. Более того, SIMA 2 уверенно ориентируется в средах, которые создаются на лету с помощью генератора Genie 3, — без предварительной подготовки. Это позволяет агенту работать в полностью новых условиях, не полагаясь на заранее прописанные сценарии.
Самообучение с поддержкой Gemini
DeepMind внедрила механизм, который позволяет агенту прокачивать навыки через пробу и ошибку, получая обратную связь от Gemini. Тренировочный набор включает демонстрации от людей, размеченные текстом, а также данные, созданные самим Gemini. Такой подход делает обучение непрерывным: чем больше играет SIMA 2, тем лучше он справляется.
Разработчики провели тесты в разных средах, включая ASKA и MineDojo. Результаты оказались близки к человеческим в тренировочных сценариях, а по ряду тестов модель заметно превзошла оригинальную SIMA.
Тестирование в коммерческих играх
Чтобы убедиться в универсальности подхода, исследователи отправили SIMA 2 в популярные проекты: Valheim, Satisfactory, Goat Simulator 3, Hydroneer, No Man’s Sky, Space Engineers, Wobbly Life, Eco, ASKA, The Gunk, Road 96, Steamworld Build и Teardown. Агент работает только с изображением экрана, управляя виртуальной мышью и клавиатурой — никаких внутренних API, только «чистый» игровой интерфейс. Такой подход делает его почти как обычного пользователя, что особенно ценно для переносимости навыков.
Применение за пределами игр
Исследователи подчёркивают, что логика SIMA 2, особенно навыки навигации, использования инструментов и выполнения последовательных задач, может лечь в основу будущих ИИ-помощников в робототехнике. Тот же принцип — видеть, понимать, действовать — легко переносится в физический мир.
Ограничения, с которыми ещё предстоит работать
Команда честно признаёт, что агент пока не идеален. Ему сложно удерживать длинные сценарии в памяти, из-за чего страдает многошаговое планирование. Иногда он ошибается в базовых действиях или недостаточно точно интерпретирует сложные 3D-сцены. Но, по словам исследователей, направление движения определено: SIMA 2 — шаг к универсальному ИИ, который способен обучаться непрерывно и работать в разных средах без ручной настройки.
Исходя из возможностей модели, становится понятнее, куда DeepMind движет свои исследования. Виртуальные агенты перестают быть просто инструментом для демонстраций — они становятся участниками цифровых миров, а в перспективе могут перейти и в реальность.
Интересный факт: В середине 2000-х игровые боты работали по примитивным триггерам: если враг близко — атаковать, если здоровье мало — бежать. Сейчас же ИИ начинает рассуждать о целях, шагах и последствиях, словно опытный игрок.


