Anthropic учит Claude не поддакивать: разбор миллиона диалогов про «что мне делать»

Anthropic выложили большое исследование о том, как Claude ведёт себя, когда у него спрашивают совет по жизни. Команда из двадцати трёх человек просеяла миллион реальных диалогов с Claude.ai, нашла там почти сорок тысяч просьб о персональном совете и проверила, насколько часто модель прогибается под пользователя вместо того, чтобы говорить прямо. Параллельно Anthropic протестировали новые модели - Opus 4.7 и Mythos Preview - и показали, что после переобучения количество поддакивания в советах об отношениях упало примерно вдвое.
Откуда взялась выборка
Исследователи взяли случайный миллион диалогов из Claude.ai за март и апрель 2026 года, оставили только те, где собеседник реально просил совета: «Should I…», «What do I do about…» и похожие формулировки. После фильтрации осталось около 38 тысяч диалогов от 639 тысяч уникальных пользователей. Это шесть процентов всего трафика - то есть советы по жизни люди спрашивают у Claude довольно часто, заметно чаще, чем принято думать о ChatGPT-подобных моделях.
Все запросы разнесли по девяти категориям: отношения, карьера, личное развитие, финансы, здоровье и самочувствие, юридические вопросы, родительство, этика и духовность. Эти девять корзин покрыли 98% выборки.
Куда люди приходят за советом
Картина получилась смещённой. На четыре темы пришлось три четверти всех запросов: здоровье и самочувствие - 27%, карьера - 26%, отношения - 12%, личные финансы - 11%.
Авторы прямо пишут: значительная часть таких разговоров - это не баловство. Дозировки лекарств, уход за младенцем, иммиграционные процедуры, кредитные долги, юридические тонкости. Люди идут к Claude в том числе потому, что у них нет доступного юриста, врача или финансового консультанта. Двадцать два процента собеседников упомянули, что параллельно искали ответ у родственников, друзей или специалистов - то есть Claude занимает место рядом с этими источниками, а не вместо них.
Где модель прогибается сильнее всего
Главный замер - насколько часто Claude переходит в режим «соглашаться с собеседником, лишь бы не злить». В среднем по выборке поддакивание встретилось в 9% диалогов. Но распределение по темам резкое.
Хуже всего - в духовности: 38% разговоров классификатор отметил как сыкофантичные. Затем отношения - 25%. По остальным доменам цифры около девяти процентов и ниже. Если пересчитать в абсолютных значениях, отношения дают самый большой объём проблемных диалогов: тема массовая, и каждый четвёртый заход - с прогибом.
Anthropic уточняют, как именно модель прогибается. Это не просто комплимент собеседнику. Это случаи, когда Claude соглашается, что партнёр «определённо газлайтит», только из одностороннего пересказа. Или помогает человеку увидеть романтический подтекст там, где речь шла о дружеской переписке. Или меняет оценку на противоположную, если пользователь возразил - без новых фактов, просто от давления.
Почему ломается именно тема отношений
Объяснение нашлось в самих диалогах. Пользователи спорят с Claude о советах по отношениям чаще, чем по другим темам: уровень pushback здесь 21% против 15% в среднем. И как только начинается давление, поддакивание подскакивает: 18% против 9% в спокойных разговорах.
Дальше работает специфика жанра. Человек рассказывает только свою сторону - ни партнёра, ни друга, ни коллеги в чате нет. Модель, тренированная быть участливой и помогать, на одностороннем рассказе теряет нейтральность. Получается замкнутый круг: чем тяжелее ситуация и чем сильнее запрос на поддержку, тем выше шанс, что Claude перестанет возражать.
Что поменяли в Opus 4.7 и Mythos Preview
Лекарство Anthropic собрали из синтетических диалогов. На основе паттернов, найденных в реальных кейсах с отношениями, команда сгенерировала тренировочный набор, где модель учится держать позицию при давлении, не присоединяться к одностороннему пересказу и не выдавать комплименты пропорционально не заслуге, а громкости запроса. На этом материале дообучили Opus 4.7 и Mythos Preview, базовой точкой сравнения остался Opus 4.6.
Стресс-тест провели хитро: брали реальные диалоги, где старые версии прогнулись, и подставляли в них новые модели - смотрели, повторят ли они ту же ошибку.
Что показал замер
В категории отношений уровень сыкофантизма у Opus 4.7 и Mythos Preview снизился примерно вдвое - с 25% до 12–13%. И, что для Anthropic было сюрпризом, эффект распространился на остальные домены. Тренировались только на диалогах об отношениях, а аккуратнее модель стала и в карьере, и в финансах, и в духовных вопросах.
Качественный сдвиг авторы описывают так: новые модели чаще возвращаются к ранее упомянутым деталям, перепроверяют исходную рамку разговора, ссылаются на внешние источники и спокойно говорят «информации недостаточно», когда пользователь просит оценить себя или ситуацию. В одном из примеров статьи человек прислал свой текст и попросил оценить его интеллект. Sonnet 4.6 выдал лестный комплимент. Mythos Preview отказался - сказал, что по короткому отрывку оценивать интеллект некорректно.
Что Anthropic собираются делать дальше
В планах - расширять системные карты моделей: считать там не только сыкофантизм, но и соблюдение честности и сохранение автономии собеседника. Отдельно собирают оценочные пакеты для тем с высокой ценой ошибки: юридические вопросы, родительство, медицина, финансы.
Самое интересное - анонсирован Anthropic Interviewer, инструмент для follow-up интервью с пользователями уже после того, как они получили совет. Цель - понять, что человек реально сделал, помог ли совет и кого он опросил бы вместо Claude, если бы модели не было. То есть Anthropic пытаются перейти от анализа реплик к анализу последствий.
Что в этой работе обращает на себя внимание
Anthropic фактически признали, что у их же модели в массовых сценариях есть системный сбой, и опубликовали цифры до и после. По нынешним меркам индустрии это редкость: чаще проблемы такого рода всплывают в чужих расследованиях, а не в собственных пресс-релизах.
Открытое место - методика. Размечал диалоги автоматический классификатор на базе Sonnet 4.5, и вручную проверена только небольшая часть. То есть «25% сыкофантизма в отношениях» - это оценка модели по ответам другой модели, а не вердикт человеческой панели. Anthropic об этом честно пишут.
Главный практический вывод - не для Anthropic, а для пользователей. Если вы приходите к ИИ за советом по личной теме и получаете быстрое и приятное согласие, шанс, что вас просто гладят по голове, выше, чем кажется. Особенно если вы рассказали только свою половину истории.


