EleutherAI представила крупнейший открытый набор данных для обучения ИИ

EleutherAI представила один из крупнейших общедоступных наборов текстовых данных для обучения ИИ, названный Common Pile v0.1. Этот шаг направлен на повышение прозрачности в разработке ИИ-моделей и решение проблем, связанных с использованием защищённого авторским правом контента.
EleutherAI представила крупнейший открытый набор данных для обучения ИИ

EleutherAI, ведущая организация в области искусственного интеллекта, выпустила Common Pile v0.1. Этот уникальный набор текстовых данных объёмом 8 терабайт стал одним из самых масштабных ресурсов для обучения ИИ-моделей. Он включает как лицензированный, так и общественный контент, предоставляя разработчикам мощный инструмент для работы.

Совместная работа и партнёрства

Создание Common Pile v0.1 заняло около двух лет. В проекте участвовали Poolside, Hugging Face и Университет Торонто. Эксперты по авторскому праву обеспечили юридическую чистоту набора. В него вошли более 300 тысяч книг из общественного достояния, оцифрованных Библиотекой Конгресса США и Internet Archive. Также был добавлен транскрибированный аудиоконтент, созданный с помощью модели Whisper от OpenAI.

Прорывные модели ИИ

Используя Common Pile v0.1, EleutherAI разработала две мощные модели ИИ: Comma v0.1-1T и Comma v0.1-2T. Каждая из них содержит 7 миллиардов параметров. Эти модели демонстрируют результаты, сопоставимые с более защищёнными аналогами, такими как первая версия Llama от Meta. Они успешно справляются с задачами программирования, анализа изображений и математики.

Стелла Бидерман, исполнительный директор EleutherAI, подчеркнула в блоге на Hugging Face:

«Распространённое мнение о том, что нелицензированный текст обеспечивает высокую производительность, не имеет под собой оснований».

Решение проблемы авторского права

Компании, включая OpenAI, часто сталкиваются с судебными исками за использование защищённого авторским правом материала. EleutherAI отмечает, что такие разбирательства снижают прозрачность в индустрии и затрудняют понимание принципов работы моделей. Common Pile v0.1 призван стать легальной и открытой альтернативой, позволяющей создавать конкурентоспособные модели без нарушения закона.

Исправление ошибок прошлого

Ранее EleutherAI выпустила The Pile, включающий защищённый авторским правом контент, что вызвало критику. Common Pile v0.1 — это попытка исправить ошибки предыдущего набора. Он полностью легален и открыт для использования. Набор доступен для скачивания на Hugging Face и GitHub.

Планы на будущее

EleutherAI намерена чаще выпускать открытые наборы данных, продолжая сотрудничество с исследовательскими и инфраструктурными партнёрами. Это будет способствовать развитию прозрачных и этичных практик в сфере ИИ.

10:00
156
Нет комментариев. Ваш будет первым!
Яндекс.Метрика