Alibaba Group представляет обновление: Qwen 2.5-1M

Это обновление открывает новые горизонты в обработке длинных текстов и мультимодальных данных, предлагая контекстное окно до одного миллиона токенов. Такое расширение возможностей делает Qwen2.5-1M лидером в работе с длинными последовательностями текста.
Alibaba Group представляет обновление: Qwen 2.5-1M

27 января 2025 года команда Qwen из Alibaba Group анонсировала запуск Qwen2.5-1M — обновленной версии своей языковой модели. Одной из ключевых особенностей новинки стало расширение контекстного окна до одного миллиона токенов. Эта уникальная возможность позволяет обрабатывать длинные последовательности текста и мультимодальные данные, укрепляя лидерские позиции модели в своей категории.

Масштабируемость и производительность

Qwen2.5 доступна в различных вариантах, начиная от компактных моделей с 0.5 миллиарда параметров до масштабных версий с 72 миллиардами параметров. Компактные модели идеально подходят для мобильных устройств и облачных приложений, где важна экономия ресурсов, тогда как более крупные модели демонстрируют высочайшую производительность при анализе данных, генерации сложного текста и мультимодальных задачах.

Версии Base ориентированы на общие задачи генерации текста, а Instruct предназначены для более точного выполнения инструкций и задач, требующих высокой точности. Это позволяет выбрать подходящую конфигурацию для решения задач разной сложности. Также существуют версии Base и Instruct, оптимизированные для генерации текста и выполнения инструкций.

Обучение модели проводилось на корпусе объемом до 18 триллионов токенов, включая данные из разнообразных источников, таких как научные публикации, техническая документация, мультиязычные тексты и синтетически созданные наборы данных. Пост-тренировка была нацелена на улучшение соответствия человеческим предпочтениям и включала задачи, связанные с инструкциями и диалогами. Поддержка контекста длиной до 128 тысяч токенов для анализа и до 8 тысяч токенов для генерации была дополнена новой возможностью обрабатывать до одного миллиона токенов в версии Qwen2.5-1M.

Мультимодальная поддержка

Qwen2.5-1M предоставляет уникальные возможности для работы с текстом, изображениями и аудио, а также для создания мультимодального контента. Модель способна анализировать сложные мультимедийные данные, такие как изображения и аудиофайлы, что делает её идеальной для научных, образовательных и корпоративных целей. Кроме того, поддержка более чем 29 языков, включая русский, китайский, английский и другие, позволяет эффективно использовать её в глобальном масштабе.

Улучшения в новой версии

Обновление Qwen2.5 включает значительные улучшения в работе с длинными текстами и структурированными данными. Модель теперь способна не только понимать, но и генерировать структурированные выходные данные, такие как JSON. Это делает её особенно полезной для аналитических задач.

Следование инструкциям стало ещё более точным, а устойчивость к разнообразию системных подсказок повысилась. Кроме того, Qwen2.5 поддерживает интеграцию с инструментами, включая браузеры, генерацию кода и мультимедийного контента, что расширяет её возможности использования.

Применение модели

Сферы применения Qwen2.5-1M весьма разнообразны. Она подходит для анализа больших текстовых документов, включая научные статьи и юридические материалы, генерации отчётов, резюме и ответов на сложные запросы. В области программирования модель помогает оптимизировать код и анализировать его с учётом долгосрочных зависимостей.

В мультимодальных задачах Qwen2.5-1M демонстрирует выдающиеся результаты, анализируя изображения, аудио и текст в рамках одной задачи. Её мультиязычные возможности делают её универсальным инструментом для локализации и перевода контента. В корпоративной среде модель может интегрироваться в автоматизированные системы и использоваться для создания умных чат-ботов.

Технические достижения

Для достижения высокой производительности использовались синтетические данные, которые улучшили способность модели анализировать длинные тексты. Прогрессивное увеличение длины контекста позволило адаптировать её к задачам разной сложности.

Разреженное внимание и алгоритмы экстраполяции длины контекста обеспечивают эффективную работу с большими последовательностями. Оптимизация инфраструктуры, включая поддержку современных GPU, делает Qwen2.5-1M подходящей для масштабируемого использования.

Заключение

Qwen2.5-1M представляет собой мощный инструмент для обработки текста и мультимодальных данных. Её уникальные преимущества перед конкурентами включают поддержку контекста длиной до 1 миллиона токенов, мультиязычную обработку с точным следованием инструкциям и оптимизацию для мультимодальных задач.

Эта модель сочетает высокую производительность с инновационными технологиями, такими как разреженное внимание и экстраполяция длины контекста, обеспечивая лидирующие позиции в анализе и генерации данных. Она обеспечивает превосходную производительность в задачах генерации, анализа и взаимодействия с пользователями.

Благодаря открытому доступу и API-версии модель становится доступной как для разработчиков, так и для крупных компаний, предоставляя гибкость и масштабируемость для решения самых сложных задач.

12:25
216
Alibaba
Alibaba Group Holding Limited — китайская транснациональная корпорация, основанная в 1999 году предпринимателем Джеком Ма и группой партнёров.
Нет комментариев. Ваш будет первым!
Посещая этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.
Яндекс.Метрика