EleutherAI представила крупнейший открытый набор данных для обучения ИИ

EleutherAI, ведущая организация в области искусственного интеллекта, выпустила Common Pile v0.1. Этот уникальный набор текстовых данных объёмом 8 терабайт стал одним из самых масштабных ресурсов для обучения ИИ-моделей. Он включает как лицензированный, так и общественный контент, предоставляя разработчикам мощный инструмент для работы.
Совместная работа и партнёрства
Создание Common Pile v0.1 заняло около двух лет. В проекте участвовали Poolside, Hugging Face и Университет Торонто. Эксперты по авторскому праву обеспечили юридическую чистоту набора. В него вошли более 300 тысяч книг из общественного достояния, оцифрованных Библиотекой Конгресса США и Internet Archive. Также был добавлен транскрибированный аудиоконтент, созданный с помощью модели Whisper от OpenAI.
Прорывные модели ИИ
Используя Common Pile v0.1, EleutherAI разработала две мощные модели ИИ: Comma v0.1-1T и Comma v0.1-2T. Каждая из них содержит 7 миллиардов параметров. Эти модели демонстрируют результаты, сопоставимые с более защищёнными аналогами, такими как первая версия Llama от Meta. Они успешно справляются с задачами программирования, анализа изображений и математики.
Стелла Бидерман, исполнительный директор EleutherAI, подчеркнула в блоге на Hugging Face:
«Распространённое мнение о том, что нелицензированный текст обеспечивает высокую производительность, не имеет под собой оснований».
Решение проблемы авторского права
Компании, включая OpenAI, часто сталкиваются с судебными исками за использование защищённого авторским правом материала. EleutherAI отмечает, что такие разбирательства снижают прозрачность в индустрии и затрудняют понимание принципов работы моделей. Common Pile v0.1 призван стать легальной и открытой альтернативой, позволяющей создавать конкурентоспособные модели без нарушения закона.
Исправление ошибок прошлого
Ранее EleutherAI выпустила The Pile, включающий защищённый авторским правом контент, что вызвало критику. Common Pile v0.1 — это попытка исправить ошибки предыдущего набора. Он полностью легален и открыт для использования. Набор доступен для скачивания на Hugging Face и GitHub.
Планы на будущее
EleutherAI намерена чаще выпускать открытые наборы данных, продолжая сотрудничество с исследовательскими и инфраструктурными партнёрами. Это будет способствовать развитию прозрачных и этичных практик в сфере ИИ.