Alibaba представляет Qwen3: новая серия моделей ИИ с открытым исходным кодом

Сегодня ночью, в 00:05 по московскому времени, компания Alibaba сделала громкое заявление: в соцсети X появился анонс Qwen3 — масштабной линейки больших языковых моделей, доступных под свободной лицензией Apache 2.0. В индустрии ИИ это событие вызвало живой отклик.
Qwen3 — это сразу несколько моделей, охватывающих как архитектуру Mixture of Experts (MoE), так и традиционные плотные варианты. Размер моделей варьируется от 600 миллионов до впечатляющих 235 миллиардов параметров. По результатам тестов серия демонстрирует конкурентоспособность на уровне ведущих решений — таких как DeepSeek-R1, Grok-3 от xAI и Gemini 2.5 Pro от Google.
Мощность и эффективность
Флагманская модель Qwen3-235B-A22B уже на старте обогнала ряд конкурентов в ключевых бенчмарках: Codeforces (программирование), AIME (математика) и BFCL (логическое мышление). А на следующий день после презентации стало известно, что через агента Openhands модель набрала 34,4% на бенчмарке Swebench-verified — серьёзный результат, особенно с учётом того, что активно используется лишь часть параметров.
Есть и более лёгкие версии: к примеру, MoE-модель Qwen3-30B-A3B превосходит по эффективности QwQ-32B, при этом используя в десять раз меньше активных параметров. А компактная Qwen3-4B сопоставима по производительности с крупной моделью Qwen2.5-72B-Instruct.
Два режима мышления и гибкость в задачах
Интересной особенностью стала поддержка двух рабочих режимов:
- режим мышления — для глубокого пошагового анализа, и
- режим без мышления — для быстрых, прямых ответов. Это позволяет адаптировать поведение модели под конкретные задачи, оптимизируя вычислительные ресурсы.
Характеристики и лицензия
Серия Qwen3 включает разнообразные модели, которые подходят как для крупных проектов, так и для более компактных решений. Модели делятся на два типа: MoE (Mixture of Experts) и плотные.
MoE-модели используют подход, при котором из общего числа параметров в каждый момент времени активно задействуется лишь их часть, что позволяет экономить вычислительные ресурсы и ускорять работу. Плотные модели, напротив, используют все свои параметры одновременно, обеспечивая стабильную производительность для широкого круга задач.
Основные модели линейки:
- MoE-модели: Qwen3-235B-A22B (всего 235 миллиардов параметров, из которых 22 миллиарда активны в процессе работы) и Qwen3-30B-A3B (всего 30 миллиардов параметров, из которых 3 миллиарда активны).
- Плотные модели: Qwen3-32B, Qwen3-14B, Qwen3-8B, Qwen3-4B, Qwen3-1.7B и Qwen3-0.6B, где число в названии отражает общее количество параметров (например, Qwen3-32B имеет 32 миллиарда параметров).
Все модели распространяются под лицензией Apache 2.0. Эта лицензия позволяет пользователям свободно использовать, изменять и распространять код, но требует указывать значительные изменения, внесенные в исходную версию, что делает Qwen3 удобной для разработчиков и компаний, работающих над собственными проектами.
Как обучали Qwen3
Для обучения моделей Alibaba собрала рекордный набор — 36 триллионов токенов, почти вдвое больше, чем у Qwen2.5. Обучение проходило в три этапа: освоение общих знаний, развитие логики и навыков STEM-дисциплин, а также работа с длинными контекстами до 32 768 токенов. Интересно, что часть данных извлекалась из PDF-файлов с помощью визуальной модели Qwen2.5-VL, а затем очищалась и улучшалась.
Использовались и продвинутые техники, вроде нормализации qk-слоёв и глобального баланса потерь — всё ради стабильности и точности.
Где и как использовать
Qwen3 уже доступна на Hugging Face, GitHub, ModelScope и Kaggle. Модели можно разворачивать через SGLang и vLLM, а для локального использования подходят Ollama, LMStudio и другие инструменты.
Также работает интеграция с облачными сервисами Fireworks AI и Hyperbolic. Проверить возможности можно прямо сейчас — через веб-версию Qwen Chat или мобильное приложение.
ИИ-гонка продолжается
Выход Qwen3 — это очередной ход в глобальной гонке ИИ. Ранее китайская DeepSeek задала высокую планку с серией V3 и моделью R1. Alibaba не осталась в стороне и в январе запустила Qwen 2.5-Max. Теперь же, с выходом Qwen3, компания подтверждает: Китай играет всё более заметную роль в мировой ИИ-индустрии.
На фоне этого США ужесточают контроль — вводят ограничения на доступ китайских компаний к современным чипам. Но, несмотря на это, модели с открытым кодом вроде Qwen3 продолжают набирать популярность, демонстрируя, что прозрачность не мешает качеству.
Alibaba уже строит планы по созданию ИИ-агентов, способных действовать в реальном мире. А Qwen3 — это, похоже, только начало.