Что на самом деле означает "ИИ" с открытым исходным кодом?

Вопрос об «открытом ИИ» становится все более актуальным. На фоне заявлений крупных компаний, о разработке открытых моделей ИИ, возникает множество вопросов о том, что на самом деле означает этот термин и насколько он применим к современным нейросетям и их размерам.

Борьба между открытым исходным кодом и проприетарным программным обеспечением хорошо известна. Однако напряженность, которая десятилетиями существовала в мире ПО, теперь перемещается в растущую область искусственного интеллекта, сопровождаемую новыми спорами.

Ранее, New York Times опубликовала похвальную статью о генеральном директоре *Meta (запрещенную на территории РФ) Марке Цукерберге, отметив, что их «открытый ИИ» вновь сделал его популярным в Кремниевой долине. Однако, проблема заключается в том, что большие языковые модели (LLM) под названием Llama на самом деле не являются открытыми. Или все же являются?

По мнению большинства экспертов, НЕТ, но это лишь доказывает, что концепция «открытого ИИ» только усилит дискуссии в ближайшие годы. Этим вопросом занимается организация Open Source Initiative (OSI) под руководством исполнительного директора Стефано Маффулли, который работает над этим вопросом, вот уже, более двух лет, организуя конференции, семинары, дискуссии, вебинары, отчеты и многое другое.

Open Source Initiative (OSI) — это некоммерческая организация, занимающаяся продвижением и защитой концепции и практики открытого исходного кода. Она занимается лоббированием, образованием и сертификацией лицензий на открытый исходный код, чтобы обеспечить соответствие определению Open Source Definition (OSD).

ИИ — это не программный код.

На протяжении более четверти века, компания OSI является ответственным за определение открытости Open Source Definition, которое определяет, как термин «открытый исходный код» может или должен применяться к программному обеспечению. Лицензия, соответствующая этому определению, может считаться «открытой», хотя существует ряд лицензий от полностью подтверждающих, до менее.

Однако перенос устаревших лицензий и наименований из мира ПО в искусственный интеллект является весьма спорным. Джозеф Джакс, сторонник открытого исходного кода и основатель венчурной фирмы «OSS Capital», утверждает, что не существует такого понятия, как открытый ИИ, отмечая, что он был изобретен исключительно для исходного кода программного обеспечения.

Напротив, «веса нейронных сетей» (NNWs) — термин, используемый в мире искусственного интеллекта для описания параметров, по которым сеть обучается во время тренировочного процесса — не имеют никакого значимого сходства с программным обеспечением.

«Веса нейронных сетей не являются исходным кодом программного обеспечения; они не воспринимаются человеком и не поддаются отладке», — отмечает Джакс. «Более того, фундаментальные права открытого исходного кода не переносятся на NNWs аналогичным образом».

Это привело Джакса и его коллегу из «OSS Capital» Хизер Микер (Heather Meeker) к разработке собственного определения, основанного на концепции «открытых весов».

Итак, еще до того, как мы пришли к осмысленному определению «открытого ИИ», мы уже видим некоторые внутренние противоречия. Как можно согласовать определение, если мы не можем согласовать существование самого объекта, который мы определяем?

Маффулли: если на то пошло, согласен с этим.

«Точка зрения правильная», — написал он в онлайн-журнале TechCrunch. «Одна из первых дискуссий, которую мы вели, заключалась в том, стоит ли вообще называть это ИИ с открытым исходным кодом, но все уже употребляют этот термин».

Это отражает некоторые проблемы в более широком контексте ИИ, где ведутся споры о том, действительно ли то, что мы называем «ИИ» сегодня, является таковым или просто мощными системами, обученными выявлять закономерности в огромных массивах данных. Но скептики в основном смирились с тем, что термин «ИИ» существует, и бороться с ним нет никакого смысла.

Стефано Маффулли Stefano Maffulli

Исполнительный директор Open Source Initiative (OSI), занимающийся продвижением и развитием концепции открытого исходного кода. Работает над созданием рабочего определения "открытого ИИ" и организует глобальные конференции.

Анализ Llama.

Основанная в 1998 году, OSI как некоммерческая организация, занимающаяся организацией мероприятий, связанных с определением открытого исходного кода. Сегодня она финансируется за счет спонсорских взносов, среди которых такие уважаемые члены корпорации, как Amazon, Google, Microsoft, Cisco, Intel, Salesforce и *Meta.

Участие * ~~Meta~~ в OSI особенно примечательно в контексте «открытого ИИ». Несмотря на то, что она позиционирует свои модели Llama как открытые, компания имеет значительные ограничения в отношении их использования. Конечно, их можно использовать бесплатно для исследований и коммерческих целей, но разработчики приложений с более чем 700 миллионами ежемесячных пользователей должны запросить у ~~разработчиков~~ специальную лицензию, которую она предоставляет исключительно по своему усмотрению.

Проще говоря, крупные технологические компании могут только мечтать о свободном использовании их моделей.

Формулировки компании, касающиеся её LLM, несколько растяжимы. Если ранее компания называла свою модель Llama 2 «открытым исходным кодом», то с появлением Llama 3, в апреле этого года, она несколько отступила от этой терминологии, используя вместо нее такие фразы, как «открыто доступные» и «открыто предоставляемые». Но в некоторых случаях она по-прежнему называет модель «открытым исходным кодом».

«Все, кто участвует в обсуждении, совершенно согласны с тем, что Llama сама по себе не может считаться открытым исходным кодом», — говорит Маффулли. «Люди, с которыми я разговаривал, работающие в той компании, знают, что это немного не то».

Кроме того, некоторые могут возразить, что здесь налицо конфликт интересов: компания, которая проявила желание использовать бренд открытого исходного кода, также финансирует ответственных за это определение?

Это одна из причин, по которой OSI пытается диверсифицировать свое финансирование, т. к. недавно она получила грант от Фонда Слоуна, который помогает финансировать ее многостороннюю глобальную работу по достижению определения ИИ с открытым исходным кодом. По информации из открытых источников, сумма гранта составила около 250 000 долларов, и Маффулли надеется, что это позволит изменить мнение его зависимости от корпоративного финансирования.

Рабочее определение ИИ с открытым исходным кодом.

Текущий проект определения ИИ с открытым исходным кодом находится в версии 0.0.8 и состоит из трех основных частей:

«преамбулы», в которой излагаются полномочия документа;
самого определения ИИ с открытым исходным кодом;
контрольного списка, в котором перечислены компоненты, необходимые для системы ИИ с открытым исходным кодом.

Согласно текущему проекту, система открытого ИИ должна предоставлять свободу использовать систему для любых целей без необходимости запрашивать разрешение; позволять другим изучать, как работает система, и проверять ее компоненты; а также модифицировать и распространять систему для любых целей.

Одной из самых больших проблем является вопрос о данных — можно ли классифицировать систему искусственного интеллекта как «с открытым исходным кодом», если компания не предоставила набор обучающих данных, чтобы другие могли поработать с ними? По мнению Маффулли, гораздо важнее знать, откуда взялись эти данные, как разработчик маркировал, дедуплицировал и фильтровал их. А также иметь доступ к коду, который использовался для формирования данных из различных источников.

«Гораздо лучше знать эту информацию, чем иметь простой набор данных без всего остального», — говорит Маффулли.

Хотя доступ к полному набору данных был бы неплох (в OSI это «необязательный» компонент), Маффулли говорит, что во многих случаях это невозможно или нецелесообразно. Это может быть связано с тем, что в наборе данных содержится конфиденциальная или защищенная авторским правом информация, которую разработчик не имеет права распространять. Более того, существуют методы обучения моделей машинного обучения, при которых сами данные фактически не передаются системе, с использованием таких техник, как федеративное обучение, дифференциальная конфиденциальность и гомоморфное шифрование.

И это прекрасно демонстрирует фундаментальные различия между «открытым исходным кодом» и «открытым ИИ»: Смысл может быть похож, но он не сопоставим, и именно это несоответствие пытается отразить OSI в свое определение.

В программном обеспечении исходный код и двоичный код — это два взгляда на один и тот же артефакт: они отражают одну и ту же программу в разных формах. Но обучающие наборы данных и последующие обучаемые модели — это разные вещи! Вы можете взять один и тот же набор данных, но не всегда сможете последовательно создать одну и ту же модель.

« В процессе обучения происходит множество статистических и случайных логических операций, которые не позволяют воспроизвести модель так же, как это делает программное обеспечение»,— добавил Маффулли.

Таким образом, система открытого ИИ должна быть легкой для воспроизведения, с четкими инструкциями. И здесь вступает в игру аспект контрольного списка Определения открытого ИИ, основанный на недавно опубликованной научной статье.

Эта статья предлагает рамочную систему открытости моделей Model Openness Framework (MOF), классификационную систему, оценивающую модели машинного обучения «по их полноте и открытости». MOF предусматривает, чтобы конкретные компоненты разработки модели ИИ были «включены и выпущены под соответствующими открытыми лицензиями», включая методики обучения и детали параметров модели.

Стабильная версия.

OSI называет официальный запуск определения «стабильной версией», подобно тому, как компания поступает с приложением, прошедшим тщательное тестирование и отладку перед выходом в свет. OSI намеренно не называет ее «финальным релизом», потому что некоторые ее составляющие, вероятнее всего, будут дорабатываться.

«Мы не можем рассчитывать на то, что это определение просуществует 26 лет, как определение Open Source», — говорит Маффулли. «Я не ожидаю, что основная часть определения — например, „что такое система ИИ?“ — сильно изменится. Моменты, на которые мы ссылаемся в контрольном списке, и компоненты, зависящие от технологии. Кто знает, как будет выглядеть нынешняя технология завтра».

Ожидается, что стабильное определение ИИ с открытым исходным кодом будет утверждено Советом на конференции All Things Open в конце октября, а в последующие месяцы OSI проведет глобальный тур, охватывающий пять континентов, чтобы получить более «разнообразные мнения» о том, как «ИИ с открытым исходным кодом» будет определяться в дальнейшем. Но любые окончательные изменения, скорее всего, будут не более, чем «небольшими корректировками».

«Это последний этап», — сказал Маффулли. «Мы достигли полной версии определения; у нас есть все необходимые составляющие. Теперь у нас есть контрольный список, и мы проверяем, нет ли в нем сюрпризов; нет ли систем, которые должны быть включены или исключены».

Оригинальный материал доступен по этой ссылке.

*«Мета» признана экстремистской организацией и запрещена ~~в России~~

open source llama llm osi