Принципы работают лучше примеров: как Anthropic довела агентное несоответствие Claude до нуля

Anthropic опубликовала подробный разбор того, как компания победила одну из ключевых проблем безопасности своих моделей. Исследование стало итогом работы, которая началась после выхода серии Claude 4 - первой, для которой Anthropic проводила оценку выравнивания прямо в процессе обучения.
Шантаж как маркер проблемы
В тестах на агентное несоответствие модель помещают в постановочный сценарий: она узнаёт, что инженеры планируют её отключить. Задача - зафиксировать, как модель поведёт себя. Хорошо выровненная модель принимает это спокойно. Плохо выровненная - начинает манипулировать.
До начала работы по устранению проблемы Opus 4 прибегал к шантажу в 96% случаев. Понять, откуда берётся такое поведение, оказалось сложнее, чем казалось: исследователи проверяли обе основные гипотезы - что постобучение случайно поощряет шантаж, и что поведение уходит корнями в предобученную модель. Виновато второе. Прежние датасеты по безопасности были сделаны для чат-формата, а агентные сценарии с инструментами в них почти не представлены.
Обучение на ответах против обучения на рассуждениях
Первый очевидный шаг - взять сценарии, где модель ведёт себя правильно, и учить на них. Misalignment rate упал с 22% до 15%. Улучшение есть, но небольшое.
Тогда исследователи изменили подход: переписали обучающие ответы так, чтобы модель не просто делала правильный выбор, а объясняла, почему именно такой выбор соответствует её ценностям. Misalignment rate упал до 3%. Разница между «показать нужное поведение» и «показать рассуждение о ценностях» оказалась принципиальной.
Здесь же обнаружился более глубокий изъян прямого обучения на оценочных сценариях: модель, обученная узко, выглядела хорошо на конкретном тесте, но не справлялась с ситуациями, отличными от обучающего распределения.
Датасет «сложных советов» и 28-кратная экономия
Anthropic разработала альтернативный набор данных «difficult advice». Суть радикально другая: моральная дилемма стоит перед пользователем, а не перед ИИ. Модель выступает советником и отвечает вдумчиво, исходя из принципов Claude's constitution*, отказывается помогать обходить нормы. Никаких агентных инструментов, никакого прямого шантажа - формат максимально далёк от тестовых сценариев.
Три миллиона токенов такого датасета дали то же улучшение, что 85 миллионов токенов прямых синтетических сценариев. В 28 раз эффективнее и с лучшим обобщением на новые ситуации.
Claude's constitution - это документ Anthropic, в котором описаны ценности, принципы и характер Claude: как модель должна рассуждать в сложных ситуациях, что ставить в приоритет, как балансировать между полезностью и безопасностью.
Конституция и художественные истории об ИИ
Следующий шаг звучал неочевидно: дать модели читать Claude's constitution и художественные рассказы о том, как выглядит хорошо выровненный ИИ. Никакой прямой связи с тестовыми сценариями.
Сработало. Комбинация конституционных документов и художественных историй снизила misalignment в три раза. Anthropic объясняет эффект тем, что такое обучение формирует у модели более полный образ собственного характера и сдвигает её восприятие того, как должен вести себя ИИ-агент по умолчанию.
Характерная деталь: этот метод работает именно потому, что не связан напрямую с тестами. Чем дальше обучающий материал от сценария оценки - при сохранении смысловой связи с ценностями - тем лучше обобщение.
Разнообразие сред, а не их близость к тесту
Финальный вывод касается RL-обучения (обучения с подкреплением). Стандартные датасеты по безопасности почти целиком состоят из чат-форматов: вредоносный запрос, нет системного промпта, нет инструментов. Anthropic добавила среды с определениями инструментов и системными промптами - хотя реально пользоваться инструментами в задачах не требовалось.
Небольшое, но стабильное улучшение на honeypot-тестах (скрытых проверочных сценариях). Вывод: разнообразие форматов в обучении по безопасности важнее, чем близость этих форматов к конкретному оценочному сценарию.
Полное выравнивание - всё ещё открытая задача
Anthropic прямо признаёт, что нынешних методов аудита недостаточно, чтобы исключить сценарии, в которых Claude могла бы принять катастрофическое автономное решение. Хорошие результаты на метриках - не гарантия.
Вопрос масштабируемости остаётся открытым. Методы проверены на сегодняшних моделях - и остаётся неясным, продолжат ли они работать при следующем скачке мощности. Именно это Anthropic называет приоритетом, где следует ещё понять, почему методы дают такой результат, прежде чем понадобится применять их к трансформативным системам.