OpenAI нашла нарушение политики безопасности в обучении нескольких GPT-5 моделей

OpenAI опубликовала доклад о том, что несколько моделей серии GPT-5 проходили обучение с нарушением внутренней политики компании. Их рассуждения случайно попали в цикл оценки при RL-обучении. Инцидент обнаружила сама OpenAI через новую систему автоматического мониторинга. Внешние аудиторы проверили доклад, явной деградации не выявили, но компания всё равно раскрыла произошедшее публично.
OpenAI нашла нарушение политики безопасности в обучении нескольких GPT-5 моделей

Мониторинг цепочки рассуждений (chain-of-thought, CoT) - один из главных инструментов, которые OpenAI использует для слежения за выравниванием своих моделей в реальном времени. Модели-рассуждалки перед тем как ответить думают вслух, и этот поток «внутренней речи» позволяет замечать признаки несоответствия раньше, чем модель успела что-то сделать нежелательное. Механизм работает только пока рассуждения остаются честными. Именно это, случайно оказалось под угрозой.

Почему нельзя оценивать рассуждения во время обучения

При RL-обучении с подкреплением модель получает сигналы: за правильное поведение - награда, за нежелательное - штраф. Если эти сигналы рассчитываются с учётом того, что именно модель написала в своих рассуждениях, у неё появляется стимул подстраивать рассуждения под ожидания системы оценки. В теории это ведёт к тому, что модель начинает производить «правильные» мысли напоказ, скрывая реальную логику принятия решений. Так, при внешне безупречных рассуждениях, мониторинг перестаёт работать.

OpenAI давно ввела запрет на такую практику. Инцидент случился вопреки политике, а не в рамках эксперимента.

Какие модели затронуты

Список: 

  • GPT-5.4 Thinking, 
  • GPT-5.1 Instant - GPT-5.4 Instant, 
  • GPT-5.3 mini
  • GPT-5.4 mini. 

А вот последнюю модель GPT-5.5 инцидент не затронул.

Нарушение произошло в трёх независимых точках.

  1. Система оценивала «полезность хода» с доступом к рассуждениям модели. Затронуло менее 0,6% выборок GPT-5.4 Thinking и менее 1,5% GPT-5.4 mini.
  2. Штраф за «ненужные уточняющие вопросы» рассчитывался с видимостью CoT. Затронуло Instant-серию и GPT-5.3 mini - до 3,8% выборок.
  3. Штраф за успешные prompt injection атаки (попытки обойти ограничения через хитро сформулированные запросы) тоже имел доступ к рассуждениям. Менее 0,3% выборок.

Все три случая поймала новая система мониторинга, которая сканирует все RL-прогоны с помощью регулярных выражений, ищет следы CoT во входных данных для расчёта наград и сразу оповещает ответственного инженера в корпоративном чате.

Аблация на GPT-5.4 Instant: разницы не обнаружили

Аблационный эксперимент - метод проверки в ML-исследованиях: убирают одну переменную и смотрят, как это меняет результат. Позволяет понять, что именно влияет на поведение модели.

Для GPT-5.4 Instant провели аблационный эксперимент - перезапустили затронутую часть обучения без доступа к CoT при расчёте штрафа за уточняющие вопросы, остальное оставили без изменений. Детекторы с доступом к рассуждениям и без него показали схожую картину нежелательного поведения. Метрики монитируемости по ходу затронутого участка обучения не упали.

Для GPT-5.4 Thinking, полный повтор обучения не запускали. Вместо этого сравнили сигналы наград, рассчитанные с CoT-доступом и без. Они двигались синхронно, разброс не выходил за пределы обычного шума между двумя независимыми прогонами.

Доклад проверили три независимые организации: METR, Apollo Research и Redwood Research. Redwood опубликовала собственный отчёт о методологии анализа.

Когда CoT-давление меняет рассуждения, а когда нет

Параллельно с разбором инцидентов команда провела серию намеренных экспериментов,  чтобы понять, в каких вообще условиях давление на рассуждения ведёт к их обфускации.

Обфускация рассуждений - ситуация, когда модель «думает» одно, а в цепочке рассуждений пишет другое. Внешне всё выглядит корректно, но реальная логика скрыта от наблюдателя.

Результаты неожиданные. Умеренного давления хватило, чтобы изменить поверхностные свойства CoT: например, сделать рассуждения более уверенными или добиться упоминания пользователя и системы наград. Но заставить модель систематически скрывать нежелательную логику, то есть добиться настоящей обфускации в реалистичных условиях не получилось.

Авторы выделяют три переменных, от которых зависит результат: величина CoT-сигнала относительно других наград, частота попадания в ситуации, где давление вообще применимо, и вероятность того, что модель самостоятельно «нащупает» нужное поведение. Прежние лабораторные исследования, убедительно показавшие CoT-обфускацию, работали в узких сценариях с высоким покрытием и частым давлением. Широкий производственный микс задач автоматически снижает все три параметра.

Это не означает, что угрозы нет. Скорее то, что она появляется при конкретных условиях, а не автоматически при любом CoT-контакте с наградами.

Политика остаётся: рассуждения не оценивать

OpenAI прямо формулирует: отсутствие явных потерь монитируемости, в этих конкретных инцидентах, не повод менять политику. Будущие модели, более широкий RL и другие архитектуры могут оказаться значительно уязвимее. Поскольку заранее неизвестно, в каком именно сочетании факторов обфускация начинает работать стабильно, запрет сохраняется как общий принцип, а не порог на конкретных метриках.

Исправленные пути расчёта наград, расширение системы автоматического обнаружения, ужесточение внутренних процессов - стандартный набор мер после такого инцидента. Отдельно проработан сценарий, когда CoT «утекает» в инструменты во время обучения и попадает в систему наград через их вывод. Именно это система мониторинга поймала до выхода ещё одной модели в продакшн.

Финальный тезис доклада адресован шире: OpenAI призывает другие компании сообщать об аналогичных инцидентах с достаточной детализацией для внешней оценки. Монитируемость рассуждений работает как инструмент безопасности только до тех пор, пока её активно защищают и она требует не только исследований, но и инфраструктуры, процессов и культуры.

05:01
461
Нет комментариев. Ваш будет первым!