Почему бенчмарки Grok 3 вызвали конфликт с OpenAI ?

В центре обсуждения – результаты тестирования новой модели Grok 3 от компании xAI, представленные с использованием теста AIME 2025. Сотрудник OpenAI обвинил компанию во введении в заблуждение, тогда как соучредитель xAI Игорь Бабушкин уверяет, что их подход обоснован, и это породило жаркие дебаты в сообществе искусственного интеллекта.
Почему бенчмарки Grok 3 вызвали конфликт с OpenAI ?

В середине февраля 2025 года компания xAI, основанная Илоном Маском, громко заявила о себе, представив Grok 3 как «самый умный ИИ на Земле». Маск и его команда уверяла, что модель превосходит конкурентов, включая OpenAI, в популярных тестах, таких как LMSys Chatbot Arena, AIME и GPQA.

Опубликованные xAI графики показывают, что версии Grok 3 Reasoning Beta и Grok 3 mini Reasoning превосходят o3-mini-high от OpenAI в тесте AIME 2025 — сборнике сложных математических задач, который считается показателем математических способностей ИИ. Маск даже намекнул, что это только начало: суперкомпьютер Colossus, оснащённый 100 тысячами GPU Nvidia H100 (а вскоре и 200 К), должен вывести Grok на новый уровень.

Но громкие заявления xAI тут же столкнулись с критикой. Сотрудники OpenAI и независимые эксперты начали задаваться вопросами: насколько эти результаты объективны? Почему xAI не раскрывает детали тестирования и архитектуры модели так же, как это делают другие игроки индустрии? В центре спора оказалась методика тестирования «cons@64».

Как «cons@64» влияет на результаты?

Тест AIME 2025 стал ключевым элементом дебатов. OpenAI указала, что xAI сравнила свои модели с их o3-mini-high, но при этом не учла показатели по методу «cons@64». Этот метод предполагает, что модели предоставляется 64 попытки на каждую задачу, а окончательный ответ выбирается на основе наиболее частого результата. 

Такой подход значительно повышает точность модели, и если учитывать его, то o3-mini-high обходит обе версии Grok 3. Однако xAI в своём графике использовала только первый полученный ответ («@1»), что создало впечатление превосходства их модели.

Представь, что ты сдаёшь экзамен. Если тебе дают одну попытку, ты можешь случайно ошибиться. А если 64 попытки и лучший результат засчитывается, шансы на успех выше. OpenAI говорит: «Мы так тестировали, а вы — нет, поэтому ваше сравнение несправедливо».

Если рассматривать результаты в таком формате, то Grok 3 Reasoning Beta не только уступает o3-mini-high, но и слегка проигрывает модели o1, работающей на средних вычислительных настройках OpenAI. В таком случае, громкие заявления xAI могут оказаться лишь частью общей картины, выгодной для маркетинга, но не отражающей реальную ситуацию.

Ответ xAI и альтернативные данные

Сотрудник OpenAI публично обвинил xAI в манипуляции с результатами, назвав их графики выборочными. В ответ соучредитель xAI Игорь Бабушкин заявил, что OpenAI также неоднократно публиковала спорные данные, особенно при сравнении собственных моделей между собой. В соцсети X появился альтернативный график от стороннего исследователя, в котором учтены все модели и их показатели по «cons@64». Интересно, что по этим данным, в выигрыше оказался вовсе не Grok 3 и не o3-mini-high, а модель DeepSeek R1, что стало неожиданным поворотом в споре двух гигантов.

«Смешно, как одни воспринимают мой график как атаку на OpenAI, а другие – как нападение на Grok, ведь на деле это пропаганда DeepSeek. Я считаю, что Grok демонстрирует достойные результаты, а хитрости OpenAI с o3-mini-high-pass@1 требуют большего внимания.»

Этот конфликт снова высветил проблему бенчмарков в ИИ-индустрии: многие компании выбирают удобные показатели, скрывая нюансы тестирования.

Ресурсы vs Оптимизация: у кого стратегия сильнее?

За цифрами бенчмарков скрывается более важный вопрос: что именно стоит за успехом моделей? xAI явно делает ставку на грубую вычислительную мощность: их Colossus, обладая сотнями тысяч GPU, обеспечивает небывалый масштаб. Это продолжение стратегии Илона Маска — увеличивать мощность вычислений до максимума. OpenAI же известна своим умением добиваться высокой эффективности без таких гигантских затрат. Исследователь Нейтан Ламберт подчеркнул, что без данных о затратах — времени, энергии и денег — сравнение моделей остаётся поверхностным.

Примером может служить тест профессора Итана Моллика из Уортонской школы, который попробовал Grok 3 в действии. По его словам, модель действительно сильная, но не даёт революционного скачка по сравнению с o3 или GPT-4o. Известный критик ИИ-индустрии Гэри Маркус высказался ещё жёстче:

«Сэму Альтману пока не о чем беспокоиться.»

При этом разные тесты показывают разные стороны моделей. Так, Андрей Карпати, бывший сотрудник OpenAI, похвалил Grok 3 за умение разрабатывать веб-сайты, но отметил его провалы в задачах с эмодзи, где DeepSeek R1 оказался лучше.

Прозрачность и будущее гонки ИИ

Этот конфликт вновь обнажил слабое место индустрии: отсутствие единого стандарта для оценки ИИ. xAI не публикует детальных технических отчётов, как это делают OpenAI или Anthropic, ограничиваясь общими заявлениями. Хотя OpenAI также скрывает многие детали своих моделей, её репутация лидера с проверенной историей пока работает на неё.

Независимые тесты Grok 3, которые могут появиться в ближайшие недели, помогут понять, насколько оправданы заявления xAI. Пока же это больше похоже на битву репутаций: Маск играет на эффектных заголовках, а OpenAI держит планку стабильности. Где правда? Скорее всего, истина, как всегда, где-то посередине.

07:21
126
xAI
xAI — компания Илона Маска, основанная в 2023 году, чтобы ускорить научные открытия человечества с помощью искусственного интеллекта.
OpenAI
OpenAI — это исследовательская компания в области искусственного интеллекта, основанная в декабре 2015 года. Целью компании является продвижение и разработка дружелюбного ИИ в интересах всего человечества.
Нет комментариев. Ваш будет первым!
Посещая этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.
Яндекс.Метрика