Alibaba выпустила Qwen3.7-Plus: мультимодального агента для экранов, кода и рабочих процессов

Alibaba Qwen представила Qwen3.7-Plus, новую модель в линейке Qwen3.7 с упором на мультимодальных агентов. В Model Studio релиз отмечен 1 июня 2026 года: Alibaba описывает Plus-версию как более выгодную по стоимости модель серии 3.7, которая усиливает зрительно-языковые возможности и сохраняет агентные функции для кода, вызова инструментов и рабочих процессов.
Qwen3.7-Plus соединяет экран, командную строку и код
Главная заявка Qwen3.7-Plus - работа в одном агентном цикле с GUI и CLI. GUI - это графический интерфейс: окна, кнопки, экраны приложений. CLI - командная строка, через которую агент запускает команды, тесты, сборку и другие действия.
В официальном посте перечислены четыре опорных сценария:
- мультимодальный гибридный агент для визуальных и текстовых задач,
- помощник для кода и продуктивности с полноформатным вводом,
- визуальный агент с распознаванием, рассуждением,
- привязкой к объектам на экране и поисковыми ответами, а также переносимость между разными агентными фреймворками.
Компания отдельно пишет, что модель рассчитана на работу через Claude Code, OpenClaw, Qwen Code и другие окружения.
Для пользователя это звучит проще: модель должна видеть интерфейс, понимать задачу, выбирать элементы на экране, писать код по визуальному референсу, запускать команды и проверять результат. Сильная часть релиза - попытка закрыть разрыв между «модель посмотрела на картинку» и «модель сама дошла до результата в рабочей среде».
Кейс с 11 часами разработки показывает главный сценарий
Самый показательный пример в китайских публикациях по анонсу - Hybrid-Agent на базе Qwen3.7-Plus, который больше 11 часов автономно разрабатывал приложение для изучения английских слов. По описанию, агент сгенерировал свыше 10 000 строк кода, сделал более 1 000 агентных вызовов и прошёл этапы от требований и написания кода до установки, тест-кейсов, GUI-тестирования, документации и итераций версии.
Этот пример хорошо показывает, куда Alibaba двигает Qwen: не в сторону обычного чат-бота, а в сторону исполнителя рабочих процессов. Здесь проверять нужно не красоту демо, а устойчивость на чужих проектах: сможет ли агент часами работать с реальным кодом, правами доступа, зависимостями и нестабильными интерфейсами без постоянной ручной страховки.
Визуальные задачи выходят за рамки распознавания картинок
Qwen3.7-Plus заявлена как модель для задач, где визуальный ввод связан с действием. В материалах упоминаются разбор сложных визуальных данных вроде схем метро, визуальные ответы с поиском, преобразование изображений и видео в SVG-код, веб-дизайн по визуальному референсу, работа с мобильными приложениями и браузерные сценарии, включая покупку облачного сервера и операции обслуживания.
В тестах Alibaba и близкие к анонсу источники называют BabyVision, MathVision, ScreenSpot Pro, OSWorld-Verified и AndroidWorld. Числа в публичном треде не раскрыты в удобном текстовом виде, поэтому безопаснее фиксировать саму претензию: компания говорит о заметном усилении визуального рассуждения, работы с интерфейсом и выполнения задач, но независимые проверки на реальных рабочих сценариях ещё важнее бенчмарков.
Доступ открыт через Model Studio
Qwen3.7-Plus доступна через Alibaba Cloud Model Studio. Документация Alibaba Cloud отдельно подтверждает, что модели Qwen в Model Studio поддерживают OpenAI-совместимый интерфейс, где для переноса кода нужно заменить API-ключ, базовый URL и название модели.
В китайской документации Model Studio для qwen3.7-plus указан контекст до 1 млн токенов и встроенные инструменты. Для материкового Китая цена начинается с 2 юаней за 1 млн входных токенов и 8 юаней за 1 млн выходных токенов при запросах до 256K токенов; для диапазона от 256K до 1 млн токенов указаны 6 и 24 юаня соответственно. Для международного режима цены выше: от 2,936 юаня за вход и 11,744 юаня за выход на 1 млн токенов до 256K, затем 8,808 и 35,232 юаня в длинном диапазоне.
Открытых весов в анонсе нет. По публичным источникам релиз сейчас выглядит как API-модель и модель для Qwen Studio, а не как публикация файлов для локального запуска. Для Qwen это заметный поворот: часть старых моделей семейства была важна именно для открытой экосистемы, но новые агентные версии всё чаще продвигаются через облачную платформу Alibaba.

Слабое место релиза
Qwen3.7-Plus выходит в момент, когда лаборатории перестали продавать просто «умные ответы». Сейчас конкурентная подача строится вокруг агентности: модель должна видеть экран, пользоваться инструментами, писать код, исправлять ошибки и не разваливаться в длинном процессе. Alibaba явно играет в эту же категорию.
Главный вопрос к Qwen3.7-Plus - не в том, умеет ли модель распознавать интерфейс на демо. Важнее, как она ведёт себя в чужих рабочих средах, где нет идеально подготовленных задач, где приложение меняет состояние, команда падает с ошибкой, а пользователь ждёт не объяснение, а готовый результат. Если модель выдержит такие сценарии, релиз станет сильным аргументом для разработчиков и компаний, которым нужны дешёвые мультимодальные агенты через API.