*Meta выпустила свою крупнейшую "открытую" модель ИИ Llama 3.1 405B

В этот вторник Meta представила свою самую крупную модель искусственного интеллекта с открытым исходным кодом — Llama 3.1 405B, содержащую 405 миллиардов параметров. Компания заявляет, что новая модель, обученная на 16 000 GPU Nvidia H100, способна конкурировать с ведущими проприетарными моделями, такими как GPT-4o от OpenAI и Claude 3.5 Sonnet от Anthropic.

Как и предыдущие модели *Meta, Llama 3.1 405B стала доступна для загрузки или использования на облачных платформах, таких как AWS, Azure и Google Cloud. Она также используется в WhatsApp и Meta.ai, где обеспечивает работу чат-бота для пользователей из США.

Новые возможности и характеристики модели:

Работа с восемью языками: английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский.
Увеличенное контекстное окно до 128 000 токенов (примерно эквивалент 50-страничной книги).
Возможность использования сторонних инструментов, приложений и API для выполнения задач.
Обучение на наборе данных из 15 триллионов токенов (около 750 миллиардов слов), датированных до 2024 года.
Улучшенные возможности в области программирования, математических вычислений и рассуждений.

Meta также представила две меньшие модели — Llama 3.1 8B и Llama 3.1 70B, которые являются обновленными версиями моделей, выпущенных в апреле. Все модели семейства Llama 3.1 имеют контекстное окно в 128 000 токенов, что значительно превышает предыдущий лимит в 8 000 токенов.

Компания утверждает, что тщательно сбалансировала обучающие данные для Llama 3.1 405B, но отказалась раскрыть точные источники данных. Известно, что модель обучалась на увеличенном объеме неанглоязычных данных, большем количестве математических данных и кода, а также на недавних веб-данных для улучшения знаний о текущих событиях.

Для поощрения использования синтетических данных Meta обновила лицензию Llama, позволяя разработчикам использовать выходные данные моделей семейства Llama 3.1 для разработки сторонних генеративных моделей ИИ. Однако лицензия по-прежнему ограничивает развертывание моделей Llama: разработчики приложений с более чем 700 миллионами ежемесячных пользователей должны запрашивать специальную лицензию у Meta.

Марк Цукерберг, генеральный директор Meta, в открытом письме изложил видение будущего, в котором инструменты и модели ИИ станут доступны большему числу разработчиков по всему миру. Компания активно продвигает свою версию "открытого" ИИ, стремясь стать синонимом генеративного ИИ.

Meta заявляет, что модели Llama были загружены более 300 миллионов раз, и на их основе создано более 20 000 производных моделей. Компания также анонсировала "эталонную систему" и новые инструменты безопасности, которые блокируют запросы, способные вызвать непредсказуемое или нежелательное поведение моделей Llama.

Однако эксперты отмечают, что ни одна из моделей Llama 3.1 не решает фундаментальных проблем современных технологий генеративного ИИ, таких как склонность к выдумыванию фактов и воспроизведению проблемных данных из обучающего набора. Кроме того, исследователи Meta упоминают о проблемах с энергопотреблением при обучении все более крупных моделей, что может вызывать значительные колебания потребления энергии в центрах обработки данных.

Интересный факт: Обучение модели Llama 3.1 405B потребовало использования 16 000 графических процессоров Nvidia H100, что демонстрирует огромные вычислительные мощности, необходимые для создания современных крупномасштабных моделей ИИ.

Выпуск Llama 3.1 405B является частью стратегии Meta по завоеванию доли рынка в области генеративного ИИ. Компания стремится создать экосистему вокруг своих моделей, предоставляя бесплатные инструменты и постепенно добавляя платные продукты и услуги. Этот подход также позволяет Meta снижать цены конкурентов и широко распространять свою версию ИИ.

*Мета - признана экстремистской организацией и запрещена в России

meta llama модели llm

Читайте новости в Telegram

t.me/ v_neuro