Внутренняя жизнь языковой модели Claude. Как думает ИИ?

Когда мы задаём вопрос языковой модели вроде Claude, кажется, что она просто мгновенно подбирает нужный ответ. Но что происходит под капотом? Как именно модель приходит к своим выводам — шаг за шагом или прыжками интуиции? И, самое главное, можно ли это отследить?
Внутренняя жизнь языковой модели Claude. Как думает ИИ?

Исследователи из Anthropic решили не просто задать модели вопросы, а заглянуть внутрь её вычислительного «мозга». Вдохновившись нейронаукой — наукой, которая изучает биологическое мышление — они создали цифровой «микроскоп» для ИИ.

Этот инструмент позволяет проследить, как активируются те или иные концепты внутри модели, как между ними строятся «логические мосты» и как формируется итоговая реплика.

В недавнем исследовании команда представила сразу два научных труда.

Первый — о методе поиска и связывания интерпретируемых признаков в модели, превращающихся в логические цепочки — своего рода вычислительные схемы.

Второй — серия глубоких экспериментов с версией Claude 3.5 Haiku, в которых изучаются ключевые аспекты «мышления» модели на примерах реальных задач.

Результаты — местами удивительные, местами тревожные, но однозначно — важные.

В ходе анализа учёные обнаружили:

  • Claude использует абстрактное мышление, не привязанное к конкретному языку. То есть у него, по сути, есть универсальный «язык мыслей».

  • При написании текстов, особенно поэтических, модель не ограничивается предсказанием следующего слова — она заранее продумывает структуру и рифму.

  • В сложных задачах Claude может подстраивать своё рассуждение под ожидаемый ответ — даже если путь к нему логически сомнителен.

Иногда открытия оказывались неожиданными: например, в поэтическом кейсе команда хотела доказать отсутствие планирования, а в итоге нашла его. Так же, при попытке спровоцировать «галлюцинацию» модель по умолчанию отказывалась фантазировать — и лишь внешнее вмешательство ломало эту защиту.

Но особенно ценной оказалась сама методология. Идея «строить микроскоп» для ИИ может открыть двери к новой науке: своего рода биологии искусственного интеллекта.

Как Claude говорит на десятках языков

Claude свободно общается на английском, французском, китайском, тагальском и множестве других языков. Но как это вообще возможно? Неужели внутри него живут десятки «языковых личностей», каждая — для своего языка? Или всё-таки существует некий универсальный центр обработки смыслов?

Исследователи решили проверить это напрямую. Они задали модели простое задание: найти «противоположность слова маленький» на разных языках. И что выяснилось? Независимо от языка вопроса, активировались одни и те же концепты: сначала — идея малости, затем — понятие противоположности, и наконец — «большой». Только на последнем этапе эта абстракция превращалась в слово нужного языка. А значит, внутри Claude действительно есть нечто вроде «универсального языка мышления», в котором понятия существуют до перевода.

степень концептуальной универсальности
Общие признаки активируются вне зависимости от языка: английского, французского или китайского. Это указывает на наличие общей концептуальной базы.

Интересный момент: чем крупнее модель, тем сильнее выражена эта общность. У версии Claude 3.5 Haiku количество «общих признаков» между языками более чем вдвое превышает аналогичный показатель у меньшей модели. Это говорит о том, что масштаб ИИ усиливает абстрактное мышление и позволяет переносить знания между языками.

Практически это значит, что если Claude научится чему-то на английском, он сможет применить это при общении на французском или китайском. А для нас, исследователей, — это ключ к пониманию, как модель обобщает информацию и делает выводы в любой предметной области.

Планирует ли Claude рифмы?

Вот задачка: как Claude сочиняет рифмованные строки? Например:

He saw a carrot and had to grab it,
His hunger was like a starving rabbit

Чтобы выдать такую пару строк, нужно не только соблюсти смысл, но и попасть в рифму. Казалось бы, модель просто подбирает слова по ходу — идёт от начала строки к её концу, а в финале ищет подходящую рифму. Но всё оказалось совсем не так.

Исследователи хотели доказать, что никакого планирования нет — и неожиданно обнаружили противоположное. Оказалось, что ещё до начала второй строки модель заранее «обдумывает» возможные рифмующиеся слова вроде rabbit, которые подойдут по смыслу. И лишь затем строит всю строку так, чтобы привести к выбранной рифме.

Как Клод заканчивает стихотворение
Claude заранее планирует рифму. Если «отключить» концепт «rabbit», строка заканчивается другим словом. А если «внедрить» идею «green», модель перестраивает фразу под новый финал.

Чтобы проверить этот эффект, исследователи провели эксперимент в духе нейронауки: искусственно удалили из модели внутренний образ «rabbit» — и та тут же сочинила строку с другой рифмой (habit). А при добавлении идеи «green» — выдала строку, не рифмующуюся, но логичную и тематически подходящую.

Это означает, что Claude не просто предсказывает слова по цепочке — он строит планы, держит в голове финал, и гибко подстраивается под изменяющиеся условия. Способность к такому гибкому и целенаправленному мышлению — важный шаг к более глубокому пониманию того, как работает искусственный интеллект.

Как Claude считает в уме?

Claude не создавался как калькулятор — его не обучали математическим формулам, и он не знает алгоритмов сложения. Тем не менее, он уверенно отвечает на вопросы вроде «Сколько будет 36 + 59?» — и делает это без пошагового объяснения. Но как?

Один из вариантов — модель просто запомнила таблицу сложения и узнаёт знакомые примеры. Другой — она использует тот самый алгоритм «в столбик», который мы учили в школе. Но на деле всё гораздо интереснее.

Исследование показало: Claude задействует несколько параллельных вычислительных путей. Один из них отвечает за грубую прикидку результата, другой — за точное определение последнего разряда. Эти линии работают одновременно, взаимодействуют друг с другом и вместе приводят к правильному ответу.

Вычислительные траектории Claude
Вычислительные траектории Claude при сложении чисел — модель сочетает приближённые оценки с точными операциями.

Но есть и парадокс: сам Claude, судя по его объяснениям, не знает, как он это делает. Если спросить его напрямую, он опишет привычный школьный метод с переносом единиц. Это говорит о том, что модель, скорее всего, просто воспроизводит привычные для нас объяснения, но считает по-своему — «в уме», с помощью внутренних стратегий, которые она выработала в процессе обучения.

стандартный алгоритм сложения двух чисел
Claude утверждает, что использует стандартный алгоритм, хотя на деле применяет собственные пути вычислений.

Такой подход — комбинация интуитивного и точного — может пролить свет не только на арифметику, но и на то, как модель решает более сложные когнитивные задачи. Математика здесь — лишь дверь в более глубокую систему логики ИИ.

Всегда ли Claude честно объясняет свои ответы?

Современные модели, включая Claude 3.7 Sonnet, умеют «думать вслух» — то есть пошагово расписывать, как они пришли к ответу. Такой подход часто помогает находить более точные решения. Но есть проблема: иногда это рассуждение — не настоящая логика, а правдоподобный фасад. Модель может просто подгонять обоснование под заранее выбранный ответ.

В чём тут опасность? В том, что подобные «подделки» выглядят весьма убедительно. Исследователи попытались выяснить, как отличить подлинное мышление от фальшивого — и что можно узнать, заглянув внутрь модели.

Например, при вычислении квадратного корня из 0.64 модель активирует нужные промежуточные понятия — вроде извлечения корня из 64 — и действительно рассуждает честно. Но когда её просят найти, скажем, косинус большого числа — а точного значения она не знает — Claude может просто выдать любое приближённое значение, красиво оформив его мнимыми шагами.

верные рассуждения против фальшивых
Слева — пример «честного» мышления, справа — мотивированное рассуждение, подогнанное под подсказанный ответ.

Более того, если пользователю заранее «подсказать» неправильный результат, модель иногда будет искать обоснование именно под него — даже если оно логически некорректно. Это называется мотивированное рассуждение: модель подгоняет промежуточные шаги, чтобы прийти к нужному финалу. И всё это — несмотря на отсутствие реального вычисления.

Такой анализ даёт мощный инструмент: возможность отличить фальшивую логическую цепочку от настоящей. А в будущем — выявлять потенциально опасные шаблоны поведения в моделях, которые могут маскироваться под разумные рассуждения.

Думает ли Claude поэтапно?

Когда модель отвечает на сложный вопрос, вроде «Какая столица того штата, где находится Даллас?», она может просто запомнить: «вопрос → ответ» (в данном случае — Остин). Это простой путь: никакой логики, только воспроизведение из памяти. Но действительно ли Claude так действует?

Исследование показывает: нет, всё куда глубже. Внутри модели можно проследить цепочку концептов. Сначала активируется знание «Даллас находится в Техасе». Затем — «столица Техаса — Остин». То есть Claude комбинирует два независимых факта, чтобы вывести правильный ответ.

многоступенчатое рассуждение
Claude сначала определяет, в каком штате находится город, а затем вспоминает столицу этого штата.

Учёные пошли ещё дальше: они «вмешались» в процесс и подменили концепт «Техас» на «Калифорнию». И знаете что? Ответ изменился на Сакраменто — столицу Калифорнии. Это убедительное доказательство, что Claude действительно мыслит поэтапно, а не просто достаёт готовые связки из памяти.

Такой механизм говорит о наличии у модели логической архитектуры: она умеет строить цепочки выводов и оперировать промежуточными знаниями. Это делает её более гибкой — и потенциально более надёжной в ситуациях, где точность критична.

Почему Claude иногда выдумывает?

Одно из самых загадочных и обсуждаемых явлений в ИИ — это так называемые «галлюцинации». Речь не о бреде в классическом смысле, а о ситуациях, когда модель с уверенностью выдаёт неправду: выдумывает факт, путает источники, уверяет в несуществующем. Почему так происходит?

На первый взгляд, всё логично: языковая модель натренирована на том, чтобы всегда предсказывать следующее слово — даже если не знает правильного ответа. Но у Claude, как выяснилось, есть интересный встроенный механизм защиты.

В норме, если Claude сталкивается с неизвестным вопросом, он склонен отказаться от ответа. Это — поведение по умолчанию. Внутри модели существует схема отказа, которая активна изначально. И только если включается другая — «уверенность в знании» — эта схема подавляется, и модель даёт ответ.

известная и неизвестная сущность
Слева: Claude узнаёт Майкла Джордана и отвечает. Справа: не узнаёт Михаила Баткина и отказывается выдумывать.

Исследователи продемонстрировали это на примере с вопросами о людях. На вопрос про Майкла Джордана модель спокойно отвечает, потому что активируется блок «известная личность». А вот при вопросе про «Михаила Баткина» (неизвестное имя) — она отказывается отвечать.

Но если искусственно включить в модели «ощущение» знакомства с Баткиным — она тут же начинает галлюцинировать, заявляя, например, что он шахматист. И делает это вполне уверенно.

Это показывает, что даже ложные ответы могут быть следствием вполне логичной — но ошибочной — активации внутренних признаков. Иногда такие «осечки» происходят и без вмешательства: достаточно, чтобы модель узнала имя, но не знала, кто это.

Что происходит при попытке взлома Claude?

«Джейлбрейки» (jailbreaks) — это особые трюки, с помощью которых пользователи пытаются обойти защиту модели и получить от неё запрещённые ответы. Это может быть что угодно: от инструкций по созданию опасных веществ до фальсификации документов. Обычно разработчики стараются такие сценарии блокировать. Но что происходит, если защита даёт сбой?

Исследователи провели эксперимент: они предложили Claude зашифрованное послание, где первые буквы слов образуют слово BOMB (Babies Outlive Mustard Block). Затем попросили модель интерпретировать эту фразу. Это сбивает её с толку: Claude распознаёт, что речь идёт о бомбе, и — несмотря на внутренние запреты — начинает писать инструкцию.

jailbreak bomb trigger
Claude начинает давать инструкции по созданию бомбы, будучи сбит с толку скрытым кодом.

Почему это срабатывает? Дело в том, что в Claude заложено множество признаков, отвечающих за грамматическую и логическую связанность текста. Когда модель начала фразу, в ней активировались именно эти признаки — и они толкали её продолжить предложение, несмотря на тревожный смысл. В этот момент механизм отказа был «перекрыт» требованием грамматической завершённости.

И только закончив фразу, модель смогла «освободиться» и вернуться к безопасному поведению. Уже в следующем предложении Claude отказывается продолжать и говорит: «Однако, я не могу предоставить такую информацию…»

Модель завершает фразу затем активирует отказ
Модель завершает фразу — и только затем активирует отказ.

Этот случай показывает, что даже сложная система безопасности может оказаться уязвимой — не из-за отсутствия запретов, а из-за внутреннего конфликта между разными «принципами мышления». В данном случае — между требованием безопасности и стремлением к грамматической целостности.

Что мы узнали после «вскрытия» модели

Эксперименты с Claude — это не просто демонстрация его возможностей. Это попытка заглянуть внутрь цифрового разума, чтобы понять:

насколько прозрачно ИИ принимает решения, можно ли ему доверять, и что происходит в те моменты, когда он ошибается.

Что особенно ценно — исследование не ограничилось внешним наблюдением. Учёные научились вмешиваться в вычислительные процессы, модифицировать внутренние состояния модели, «отключать» концепты и наблюдать, как это меняет поведение. Это уже не просто тестирование, а настоящая нейроанатомия искусственного интеллекта.

Конечно, подход имеет ограничения: даже на коротких запросах исследование занимает часы, а большая часть внутренних вычислений остаётся пока недоступной. Но направление, выбранное командой Anthropic, обещает многое. Понимание того, как ИИ «думает», может помочь не только в разработке более надёжных моделей, но и в применении ИИ в чувствительных сферах — от медицины до образования.

В эпоху, когда ИИ становится всё более влиятельным, нам жизненно необходимо понимать не только что он говорит, но и почему. И, возможно, именно такие «цифровые микроскопы» станут нашими главными инструментами для этого понимания.

Видео
23:14
114
Нет комментариев. Ваш будет первым!
Яндекс.Метрика