Mistral AI и NVIDIA представляют новую языковую модель NeMo с 12 миллиардами параметров

Mistral AI и NVIDIA объединили усилия для создания передовой языковой модели NeMo с 12 миллиардами параметров, отличающейся высокой производительностью и многоязычностью. Модель доступна для свободного использования,
Mistral AI и NVIDIA представляют новую языковую модель NeMo с 12 миллиардами параметров

18 июля компания Mistral AI объявила о выпуске NeMo - новой языковой модели с 12 миллиардами параметров, разработанной в сотрудничестве с NVIDIA. Эта модель отличается впечатляющим контекстным окном до 128 000 токенов и, по заявлениям разработчиков, демонстрирует передовые результаты в области рассуждений, общих знаний и точности кодирования для своей категории.

Сотрудничество Mistral AI и NVIDIA привело к созданию модели, которая не только расширяет границы производительности, но и ставит в приоритет удобство использования платформы. NeMo разработана таким образом, чтобы стать легкой заменой для систем, в настоящее время использующих модель Mistral 7B, опираясь на стандартную архитектуру.

В стремлении поощрить внедрение и дальнейшие исследования, Mistral AI сделала доступными предварительно обученные базовые и настроенные на инструкции контрольные точки модели под лицензией Apache 2.0. Этот подход с открытым исходным кодом, вероятно, привлечет как исследователей, так и предприятия, потенциально ускоряя интеграцию модели в различные приложения.

Одной из ключевых особенностей Mistral NeMo является осведомленность о квантовании во время обучения, а такой подход позволяет осуществлять вывод в формате FP8 без ущерба в производительности. Эта возможность может оказаться решающей для организаций, стремящихся эффективно развертывать крупные языковые модели.

Mistral AI предоставила сравнительные данные о производительности базовой модели Mistral NeMo и двух недавних предварительно обученных моделей с открытым исходным кодом: Gemma 2 9B и Llama 3 8B.

сравнительные данные

"Модель предназначена для глобальных, многоязычных приложений. Она обучена вызову функций, имеет большое контекстное окно и особенно сильна в английском, французском, немецком, испанском, итальянском, португальском, китайском, японском, корейском, арабском и хинди языках", - пояснили в Mistral AI.
"Это новый шаг к тому, чтобы передовые модели искусственного интеллекта стали доступны каждому на всех языках, формирующих человеческую культуру".

Эффективный токенизатор Tekken

Mistral NeMo представляет Tekken - новый токенизатор, основанный на Tiktoken. Обученный на более чем 100 языках, Tekken предлагает улучшенную эффективность сжатия как для текста на естественном языке, так и для исходного кода по сравнению с токенизатором SentencePiece, использовавшимся в предыдущих моделях Mistral. Компания сообщает, что Tekken примерно на 30% эффективнее сжимает исходный код и тексты на нескольких основных языках, причем для корейского и арабского языков преимущество еще более значительно.

Mistral AI также утверждает, что Tekken превосходит токенизатор Llama 3 в сжатии текста для примерно 85% всех языков, что потенциально дает Mistral NeMo преимущество в многоязычных приложениях.

Степень сжатия Tekken.

Веса модели теперь доступны на HuggingFace как для базовой версии, так и для версии с инструкциями. Разработчики могут начать экспериментировать с Mistral NeMo, используя инструмент mistral-inference, и адаптировать его с помощью mistral-finetune. Для тех, кто использует платформу Mistral, модель доступна под названием open-mistral-nemo.

В знак сотрудничества с NVIDIA, Mistral NeMo также упакована как микросервис вывода NVIDIA NIM, доступный через ai.nvidia.com. Эта интеграция может упростить развертывание для организаций, уже инвестировавших в экосистему искусственного интеллекта NVIDIA.

Выпуск Mistral NeMo представляет собой значительный шаг вперед в демократизации передовых моделей искусственного интеллекта. Сочетая высокую производительность, многоязычные возможности и доступность с открытым исходным кодом, Mistral AI и NVIDIA позиционируют эту модель как универсальный инструмент для широкого спектра приложений искусственного интеллекта в различных отраслях и исследовательских областях.

Видео
21:23
123
NVIDIA
NVIDIA Corporation одна из ведущих технологических компаний в мире, известная своими инновациями в области графических процессоров и технологий искусственного интеллекта.
Mistral AI Ltd
Mistral AI Ltd. — французская компания, специализирующаяся на разработке и внедрении решений в области искусственного интеллекта.
Нет комментариев. Ваш будет первым!
Посещая этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.