GitHub обновил политику использования данных: как теперь обучается Copilot

Инициатива крупнейшего веб-сервиса для хостинга IT-проектов напрямую коснется миллионов независимых разработчиков, использующих версии Free, Pro и недавно представленную Pro+. Руководство платформы GitHub решило отойти от практики тренировки алгоритмов исключительно на публичных массивах данных и заранее подготовленных фрагментах.
Стоит заметить, что теперь в ход пойдут реальные рабочие процессы: история чатов, отклоненные или принятые подсказки, а также навигация по файлам. Примечательно, что владельцы корпоративных подписок Business и Enterprise остаются в полной безопасности - их интеллектуальная собственность по-прежнему неприкосновенна.
Зачем алгоритмам реальные данные
Долгое время создатели помощников опирались на синтетическую или открытую информацию. Однако включение в выборку внутренних логов сотрудников корпорации Microsoft, которой принадлежит GitHub, дало ощутимый прирост качества. В частности, процент успешного принятия автоматически сгенерированного кода вырос сразу в нескольких языках программирования.
Историческая справка: Использование пользовательского опыта для улучшения алгоритмов - давняя и успешная практика в технологическом секторе. Еще в начале двухтысячных годов поисковые системы совершили качественный скачок, когда начали учитывать клики и поведение людей на страницах выдачи, превратив миллиарды ежедневных запросов в масштабную тренировочную базу.
Подобный подход, по мнению главного директора по продукту GitHub Марио Родригеса, позволит системе глубже понимать контекст разработки. Ассистент научится точнее предлагать паттерны и эффективнее выявлять потенциальные ошибки еще до того, как код попадет в релиз.
Что именно собирает система
Если программист не выразит явного отказа от участия в программе, алгоритмы начнут фиксировать довольно широкий спектр взаимодействий. В список собираемой информации входят принятые или измененные фрагменты сгенерированного кода, запросы к Copilot, включая те части кода, которые система видит для контекста, и строки, окружающие курсор в редакторе. Также учитываются оставляемые комментарии, структура репозитория, имена файлов и реакции на предложенные решения в виде положительных или отрицательных оценок.
Но так ли все прозрачно на самом деле? Создатели платформы подчеркивают строгие ограничения. Система не будет анализировать ваши закрытые репозитории в состоянии покоя или содержимое вкладок с обсуждениями. Однако стоит учитывать важный нюанс: когда вы активно пишете код в приватном репозитории с включенным помощником, данные в момент работы все равно обрабатываются и могут попасть в обучающую выборку.
Право на приватность и передача информации
Разработчики оставили простой механизм защиты для тех, кто не желает делиться своими наработками. Отказаться от сбора можно в любой момент через настройки конфиденциальности в личном кабинете. Если пользователь ранее уже снимал галочку, разрешающую использовать данные для улучшения продуктов, этот выбор сохранится автоматически.
Собранная база не будет передана независимым организациям. Представители сервиса гарантируют, что доступ к логам получат только аффилированные с GitHub структуры. Никакие сторонние провайдеры моделей или независимые сервисы эти данные не увидят. В конечном итоге, будущее автоматизированной разработки напрямую зависит от того, насколько алгоритмы понимают живых людей, но право участвовать в этом процессе остается добровольным.


