Google DeepMind протестировала Gemini в Kaggle Game Arena: покер, Werewolf и шахматы

Google DeepMind опубликовало результаты модели Gemini в рамках платформы Kaggle Game Arena - публичного бенчмарка, где ИИ соревнуются друг с другом в стратегических играх. Впервые помимо шахмат в тестирование включили игры с неполной информацией и социальным взаимодействием.
Google DeepMind протестировала Gemini в Kaggle Game Arena: покер, Werewolf и шахматы

Исследовательское подразделение Google DeepMind опубликовало новые результаты модели Gemini в рамках соревновательной платформы Kaggle Game Arena, где ИИ тестируют не на абстрактных задачах, а в живых играх с неопределённостью. В центре внимания оказались три принципиально разных сценария - социальная дедукция Werewolf, покер и классические шахматы, каждый из которых проверяет «прикладные» когнитивные навыки современных моделей.

Зачем вообще нужны игровые бенчмарки

Game Arena была запущена Google DeepMind совместно с Kaggle как открытая площадка для сравнения моделей ИИ в условиях прямой конкуренции. В отличие от классических текстовых тестов и датасетов, здесь важен не только результат, но и поведение модели в процессе игры.

Изначально платформа опиралась на шахматы - эталонную игру с полной информацией. Она хорошо подходит для оценки стратегического мышления, но слабо отражает реальные условия, в которых ИИ приходится принимать решения при дефиците данных и в присутствии других действующих агентов. Именно этот разрыв и стал причиной расширения Game Arena.

Почему добавили Werewolf и покер

В Google DeepMind подчёркивают, что реальные задачи - от бизнеса до командной работы, редко напоминают шахматную партию. Чаще это ситуация неопределённости, противоречивых сигналов и необходимости договариваться.

Новые игры закрывают сразу несколько важных классов навыков:

  • принятие решений при неполной информации,
  • стратегическое взаимодействие с другими агентами,
  • коммуникацию и аргументацию на естественном языке,
  • работу с риском и вероятностями.

Werewolf: социальная дедукция как тест для LLM

Что проверяет игра

Werewolf - командная игра, где часть участников скрывает свою истинную роль. Всё взаимодействие происходит через диалог. Модель должна анализировать реплики других игроков, их голосования и поведение между раундами.

В рамках Game Arena Werewolf стал первым командным бенчмарком, полностью построенным на естественном языке.

Какие навыки здесь важны

Для языковых моделей это проверка сразу нескольких «человеческих» способностей:

  • понимания контекста и подтекста,
  • распознавания противоречий,
  • построения аргументации,
  • формирования и разрушения коалиций.

Отдельно исследователи отмечают ценность игры для изучения стратегического обмана и его распознавания - без риска реального применения.

Poker: риск, неопределённость и стратегия

Покер добавляет другой тип сложности. В отличие от Werewolf, здесь почти нет диалога, но крайне высока роль скрытой информации.

Модель должна:

  • оценивать вероятности исходов,
  • учитывать стиль соперника,
  • управлять ставками,
  • использовать блеф и реагировать на него.

В Game Arena используется формат Heads-Up No-Limit Texas Hold’em, что позволяет сравнивать стратегии на дистанции, сглаживая влияние случайности.

Chess: почему шахматы всё ещё важны

Шахматы остаются основой Game Arena и эталоном для оценки последовательного рассуждения. В Google DeepMind отдельно подчёркивают разницу подходов:
классические движки вроде Stockfish опираются на перебор миллионов позиций, тогда как языковые модели действуют через распознавание паттернов и эвристики.

Этот «человеко-подобный» стиль мышления позволяет отслеживать, как ИИ формирует долгосрочные планы и адаптируется к изменению позиции.

Как показала себя Gemini

Согласно опубликованным данным, актуальные версии Gemini занимают лидирующие позиции в нескольких дисциплинах Game Arena. По сравнению с предыдущими поколениями заметен рост в способности:

  • удерживать стратегию на протяжении многих ходов,
  • сопоставлять слова и действия других игроков,
  • корректировать поведение по ходу игры.

Исследователи отмечают, что особенно показательной стала динамика в Werewolf, где ошибки в логике или коммуникации быстро накапливаются и приводят к поражению.

Реакция разработчиков и исследователей

В обсуждениях под анонсом многие участники подчёркивают, что ценность таких игровых арен, в анализе процесса, а не только результата. Важно видеть, как модель:

  • объясняет свои решения,
  • убеждает партнёров,
  • реагирует на давление и неопределённость.

Некоторые комментаторы прямо связывают подобные тесты с движением в сторону более универсальных ИИ-систем, поскольку именно социальные и стратегические навыки чаще всего требуются за пределами лабораторных условий.

Почему вокруг этого столько разговоров

Игры с социальной дедукцией и блефом часто рассматриваются как индикатор приближения к более «общему» интеллекту. Они требуют элементов теории разума, умения рассуждать о намерениях и знаниях других участников.

В Google DeepMind, впрочем, призывают к сдержанности: Game Arena рассматривается прежде всего как инструмент измерения и безопасная среда для изучения агентного поведения, включая потенциально проблемные сценарии.

Исторический факт: Почти каждый крупный этап развития ИИ сопровождался «игровым» бенчмарком - от шахмат до го. Разница сегодняшнего этапа в том, что фокус смещается с одной игры на целый спектр ситуаций, ближе к реальному миру.
03:15
152
Google
Google — это глобальная технологическая компания, основанная 4 сентября 1998 года Ларри Пейджем и Сергеем Брином в Калифорнии.
0
sisebo sisebo 1 день назад #

по итогу не понятно.может ли ии играть в покер на платформе с живыми игроками или не может анализировать эмоции, блеф ?