xAI представила Grok-2: новая языковая модель бросает вызов лидерам рынка ИИ

13 августа компания xAI, основанная Илоном Маском, выпустила бета-версию своей новой языковой модели Grok-2 и ее уменьшенной версии Grok-2 mini. Обе модели стали доступны пользователям платформы X с премиум-подпиской и, по заявлению разработчиков, превзошли по производительности конкурирующие системы.

Разработчики заявили, что Grok-2 представляет собой значительный шаг вперед по сравнению с предыдущей версией Grok-1.5, обладая передовыми возможностями в области чата, кодирования и рассуждений. Ранняя версия Grok-2 уже была протестирована на лидерборде LMSYS под кодовым названием "sus-column-r" и, по словам xAI, превзошла показатели таких конкурентов, как Claude 3.5 Sonnet и GPT-4-Turbo.

xAI сообщила, что для оценки своих моделей компания использует процесс, аналогичный LMSYS. Специальные ИИ-тьюторы взаимодействуют с моделями в различных задачах, отражающих реальные сценарии использования Grok. При каждом взаимодействии тьюторы выбирают лучший из двух ответов, сгенерированных Grok, основываясь на определенных критериях. Особое внимание уделялось оценке способности модели следовать инструкциям и предоставлять точную фактическую информацию.

Grok-2 продемонстрировал значительные улучшения в работе с извлеченным контентом и использовании инструментов, таких как правильное выявление недостающей информации, рассуждение о последовательности событий и отбрасывание нерелевантных постов.

Компания также провела оценку моделей Grok-2 по ряду академических тестов, включающих задачи на рассуждение, чтение и понимание, математику, науку и кодирование. Обе модели, Grok-2 и Grok-2 mini, показали значительные улучшения по сравнению с предыдущей версией Grok-1.5. Они достигли уровня производительности, сопоставимого с другими передовыми моделями в таких областях, как знания научных дисциплин уровня выпускников вузов (тест GPQA), общие знания (тесты MMLU, MMLU-Pro) и задачи по математике уровня соревнований (тест MATH).

Кроме того, Grok-2 продемонстрировал высокие результаты в задачах, связанных с обработкой изображений, показав передовую производительность в визуальных математических рассуждениях (тест MathVista) и в ответах на вопросы по документам (тест DocVQA).

xAI также анонсировала, что позднее в августе обе модели, Grok-2 и Grok-2 mini, станут доступны разработчикам через новую корпоративную API-платформу. Новый API будет построен на специально разработанном технологическом стеке, позволяющем осуществлять мультирегиональное развертывание для обеспечения низкой задержки доступа по всему миру.

Илон Маск, прокомментировал релиз:

"С момента анонса Grok-1 в ноябре 2023 года xAI развивается невероятными темпами благодаря небольшой команде с высочайшей концентрацией талантов. Представив Grok-2, мы вывели себя на передовые позиции в разработке ИИ".

Компания заявила о планах по дальнейшему развитию основных возможностей рассуждения с использованием нового вычислительного кластера и пообещала поделиться новыми разработками в ближайшие месяцы.

Видео

grok илон маск модели обновления

Читайте новости в Telegram

t.me/ v_neuro