Внутренняя жизнь языковой модели Claude. Как думает ИИ?

Исследователи из Anthropic решили не просто задать модели вопросы, а заглянуть внутрь её вычислительного «мозга». Вдохновившись нейронаукой — наукой, которая изучает биологическое мышление — они создали цифровой «микроскоп» для ИИ.
Этот инструмент позволяет проследить, как активируются те или иные концепты внутри модели, как между ними строятся «логические мосты» и как формируется итоговая реплика.
В недавнем исследовании команда представила сразу два научных труда.
Первый — о методе поиска и связывания интерпретируемых признаков в модели, превращающихся в логические цепочки — своего рода вычислительные схемы.
Второй — серия глубоких экспериментов с версией Claude 3.5 Haiku, в которых изучаются ключевые аспекты «мышления» модели на примерах реальных задач.
Результаты — местами удивительные, местами тревожные, но однозначно — важные.
В ходе анализа учёные обнаружили:
-
Claude использует абстрактное мышление, не привязанное к конкретному языку. То есть у него, по сути, есть универсальный «язык мыслей».
-
При написании текстов, особенно поэтических, модель не ограничивается предсказанием следующего слова — она заранее продумывает структуру и рифму.
-
В сложных задачах Claude может подстраивать своё рассуждение под ожидаемый ответ — даже если путь к нему логически сомнителен.
Иногда открытия оказывались неожиданными: например, в поэтическом кейсе команда хотела доказать отсутствие планирования, а в итоге нашла его. Так же, при попытке спровоцировать «галлюцинацию» модель по умолчанию отказывалась фантазировать — и лишь внешнее вмешательство ломало эту защиту.
Но особенно ценной оказалась сама методология. Идея «строить микроскоп» для ИИ может открыть двери к новой науке: своего рода биологии искусственного интеллекта.
Как Claude говорит на десятках языков
Claude свободно общается на английском, французском, китайском, тагальском и множестве других языков. Но как это вообще возможно? Неужели внутри него живут десятки «языковых личностей», каждая — для своего языка? Или всё-таки существует некий универсальный центр обработки смыслов?
Исследователи решили проверить это напрямую. Они задали модели простое задание: найти «противоположность слова маленький» на разных языках. И что выяснилось? Независимо от языка вопроса, активировались одни и те же концепты: сначала — идея малости, затем — понятие противоположности, и наконец — «большой». Только на последнем этапе эта абстракция превращалась в слово нужного языка. А значит, внутри Claude действительно есть нечто вроде «универсального языка мышления», в котором понятия существуют до перевода.

Интересный момент: чем крупнее модель, тем сильнее выражена эта общность. У версии Claude 3.5 Haiku количество «общих признаков» между языками более чем вдвое превышает аналогичный показатель у меньшей модели. Это говорит о том, что масштаб ИИ усиливает абстрактное мышление и позволяет переносить знания между языками.
Практически это значит, что если Claude научится чему-то на английском, он сможет применить это при общении на французском или китайском. А для нас, исследователей, — это ключ к пониманию, как модель обобщает информацию и делает выводы в любой предметной области.
Планирует ли Claude рифмы?
Вот задачка: как Claude сочиняет рифмованные строки? Например:
He saw a carrot and had to grab it,
His hunger was like a starving rabbit
Чтобы выдать такую пару строк, нужно не только соблюсти смысл, но и попасть в рифму. Казалось бы, модель просто подбирает слова по ходу — идёт от начала строки к её концу, а в финале ищет подходящую рифму. Но всё оказалось совсем не так.
Исследователи хотели доказать, что никакого планирования нет — и неожиданно обнаружили противоположное. Оказалось, что ещё до начала второй строки модель заранее «обдумывает» возможные рифмующиеся слова вроде rabbit, которые подойдут по смыслу. И лишь затем строит всю строку так, чтобы привести к выбранной рифме.

Чтобы проверить этот эффект, исследователи провели эксперимент в духе нейронауки: искусственно удалили из модели внутренний образ «rabbit» — и та тут же сочинила строку с другой рифмой (habit). А при добавлении идеи «green» — выдала строку, не рифмующуюся, но логичную и тематически подходящую.
Это означает, что Claude не просто предсказывает слова по цепочке — он строит планы, держит в голове финал, и гибко подстраивается под изменяющиеся условия. Способность к такому гибкому и целенаправленному мышлению — важный шаг к более глубокому пониманию того, как работает искусственный интеллект.
Как Claude считает в уме?
Claude не создавался как калькулятор — его не обучали математическим формулам, и он не знает алгоритмов сложения. Тем не менее, он уверенно отвечает на вопросы вроде «Сколько будет 36 + 59?» — и делает это без пошагового объяснения. Но как?
Один из вариантов — модель просто запомнила таблицу сложения и узнаёт знакомые примеры. Другой — она использует тот самый алгоритм «в столбик», который мы учили в школе. Но на деле всё гораздо интереснее.
Исследование показало: Claude задействует несколько параллельных вычислительных путей. Один из них отвечает за грубую прикидку результата, другой — за точное определение последнего разряда. Эти линии работают одновременно, взаимодействуют друг с другом и вместе приводят к правильному ответу.

Но есть и парадокс: сам Claude, судя по его объяснениям, не знает, как он это делает. Если спросить его напрямую, он опишет привычный школьный метод с переносом единиц. Это говорит о том, что модель, скорее всего, просто воспроизводит привычные для нас объяснения, но считает по-своему — «в уме», с помощью внутренних стратегий, которые она выработала в процессе обучения.

Такой подход — комбинация интуитивного и точного — может пролить свет не только на арифметику, но и на то, как модель решает более сложные когнитивные задачи. Математика здесь — лишь дверь в более глубокую систему логики ИИ.
Всегда ли Claude честно объясняет свои ответы?
Современные модели, включая Claude 3.7 Sonnet, умеют «думать вслух» — то есть пошагово расписывать, как они пришли к ответу. Такой подход часто помогает находить более точные решения. Но есть проблема: иногда это рассуждение — не настоящая логика, а правдоподобный фасад. Модель может просто подгонять обоснование под заранее выбранный ответ.
В чём тут опасность? В том, что подобные «подделки» выглядят весьма убедительно. Исследователи попытались выяснить, как отличить подлинное мышление от фальшивого — и что можно узнать, заглянув внутрь модели.
Например, при вычислении квадратного корня из 0.64 модель активирует нужные промежуточные понятия — вроде извлечения корня из 64 — и действительно рассуждает честно. Но когда её просят найти, скажем, косинус большого числа — а точного значения она не знает — Claude может просто выдать любое приближённое значение, красиво оформив его мнимыми шагами.

Более того, если пользователю заранее «подсказать» неправильный результат, модель иногда будет искать обоснование именно под него — даже если оно логически некорректно. Это называется мотивированное рассуждение: модель подгоняет промежуточные шаги, чтобы прийти к нужному финалу. И всё это — несмотря на отсутствие реального вычисления.
Такой анализ даёт мощный инструмент: возможность отличить фальшивую логическую цепочку от настоящей. А в будущем — выявлять потенциально опасные шаблоны поведения в моделях, которые могут маскироваться под разумные рассуждения.
Думает ли Claude поэтапно?
Когда модель отвечает на сложный вопрос, вроде «Какая столица того штата, где находится Даллас?», она может просто запомнить: «вопрос → ответ» (в данном случае — Остин). Это простой путь: никакой логики, только воспроизведение из памяти. Но действительно ли Claude так действует?
Исследование показывает: нет, всё куда глубже. Внутри модели можно проследить цепочку концептов. Сначала активируется знание «Даллас находится в Техасе». Затем — «столица Техаса — Остин». То есть Claude комбинирует два независимых факта, чтобы вывести правильный ответ.

Учёные пошли ещё дальше: они «вмешались» в процесс и подменили концепт «Техас» на «Калифорнию». И знаете что? Ответ изменился на Сакраменто — столицу Калифорнии. Это убедительное доказательство, что Claude действительно мыслит поэтапно, а не просто достаёт готовые связки из памяти.
Такой механизм говорит о наличии у модели логической архитектуры: она умеет строить цепочки выводов и оперировать промежуточными знаниями. Это делает её более гибкой — и потенциально более надёжной в ситуациях, где точность критична.
Почему Claude иногда выдумывает?
Одно из самых загадочных и обсуждаемых явлений в ИИ — это так называемые «галлюцинации». Речь не о бреде в классическом смысле, а о ситуациях, когда модель с уверенностью выдаёт неправду: выдумывает факт, путает источники, уверяет в несуществующем. Почему так происходит?
На первый взгляд, всё логично: языковая модель натренирована на том, чтобы всегда предсказывать следующее слово — даже если не знает правильного ответа. Но у Claude, как выяснилось, есть интересный встроенный механизм защиты.
В норме, если Claude сталкивается с неизвестным вопросом, он склонен отказаться от ответа. Это — поведение по умолчанию. Внутри модели существует схема отказа, которая активна изначально. И только если включается другая — «уверенность в знании» — эта схема подавляется, и модель даёт ответ.

Исследователи продемонстрировали это на примере с вопросами о людях. На вопрос про Майкла Джордана модель спокойно отвечает, потому что активируется блок «известная личность». А вот при вопросе про «Михаила Баткина» (неизвестное имя) — она отказывается отвечать.
Но если искусственно включить в модели «ощущение» знакомства с Баткиным — она тут же начинает галлюцинировать, заявляя, например, что он шахматист. И делает это вполне уверенно.
Это показывает, что даже ложные ответы могут быть следствием вполне логичной — но ошибочной — активации внутренних признаков. Иногда такие «осечки» происходят и без вмешательства: достаточно, чтобы модель узнала имя, но не знала, кто это.
Что происходит при попытке взлома Claude?
«Джейлбрейки» (jailbreaks) — это особые трюки, с помощью которых пользователи пытаются обойти защиту модели и получить от неё запрещённые ответы. Это может быть что угодно: от инструкций по созданию опасных веществ до фальсификации документов. Обычно разработчики стараются такие сценарии блокировать. Но что происходит, если защита даёт сбой?
Исследователи провели эксперимент: они предложили Claude зашифрованное послание, где первые буквы слов образуют слово BOMB (Babies Outlive Mustard Block). Затем попросили модель интерпретировать эту фразу. Это сбивает её с толку: Claude распознаёт, что речь идёт о бомбе, и — несмотря на внутренние запреты — начинает писать инструкцию.

Почему это срабатывает? Дело в том, что в Claude заложено множество признаков, отвечающих за грамматическую и логическую связанность текста. Когда модель начала фразу, в ней активировались именно эти признаки — и они толкали её продолжить предложение, несмотря на тревожный смысл. В этот момент механизм отказа был «перекрыт» требованием грамматической завершённости.
И только закончив фразу, модель смогла «освободиться» и вернуться к безопасному поведению. Уже в следующем предложении Claude отказывается продолжать и говорит: «Однако, я не могу предоставить такую информацию…»

Этот случай показывает, что даже сложная система безопасности может оказаться уязвимой — не из-за отсутствия запретов, а из-за внутреннего конфликта между разными «принципами мышления». В данном случае — между требованием безопасности и стремлением к грамматической целостности.
Что мы узнали после «вскрытия» модели
Эксперименты с Claude — это не просто демонстрация его возможностей. Это попытка заглянуть внутрь цифрового разума, чтобы понять:
насколько прозрачно ИИ принимает решения, можно ли ему доверять, и что происходит в те моменты, когда он ошибается.
Что особенно ценно — исследование не ограничилось внешним наблюдением. Учёные научились вмешиваться в вычислительные процессы, модифицировать внутренние состояния модели, «отключать» концепты и наблюдать, как это меняет поведение. Это уже не просто тестирование, а настоящая нейроанатомия искусственного интеллекта.
Конечно, подход имеет ограничения: даже на коротких запросах исследование занимает часы, а большая часть внутренних вычислений остаётся пока недоступной. Но направление, выбранное командой Anthropic, обещает многое. Понимание того, как ИИ «думает», может помочь не только в разработке более надёжных моделей, но и в применении ИИ в чувствительных сферах — от медицины до образования.
В эпоху, когда ИИ становится всё более влиятельным, нам жизненно необходимо понимать не только что он говорит, но и почему. И, возможно, именно такие «цифровые микроскопы» станут нашими главными инструментами для этого понимания.