Почему ChatGPT ушёл в режим гоблина

История про «гоблинов» в ChatGPT начиналась как странный мем из соцсетей, а закончилась редким публичным саморазбором OpenAI. Компания признала, что у GPT и Codex закрепилась нелепая, но вполне измеримая речевая привычка: модель всё чаще вставляла в ответы goblin, gremlin и похожие слова, хотя пользователи этого не просили.
Почему ChatGPT ушёл в режим гоблина

На поверхности это выглядело как смешной сбой. По сути же рынок получил наглядный кейс о том, как настройка «характера» модели может протечь в её базовое поведение и выйти наружу уже не в лаборатории, а в рабочем продукте.

Мем, который вылез из кода

Сначала тему раскопали не журналисты и не сама OpenAI, а пользователи. В обсуждениях GPT-5.5 и Codex начали появляться скриншоты, где модель без повода писала про goblin mode, goblin bandwidth, perf gremlin и другие подобные вещи. В обычном чат-интерфейсе это ещё смотрелось как эксцентричная манера речи. В кодовых и агентских сценариях такой тон уже ломал ощущение надёжного рабочего инструмента.

промпт где модель без повода писала про гоблинов

Поворотным моментом стала находка в системных инструкциях Codex. Там обнаружили прямой запрет упоминать goblins, gremlins, raccoons, trolls, ogres, pigeons и других существ, если это не связано с запросом пользователя. Для интернета это был подарок! Когда серьёзному ИИ-агенту приходится отдельно запрещать «не говорить о гоблинах», история почти гарантированно перестаёт быть просто технической заметкой и превращается в вирусный культурный эпизод.

Именно в этот момент тема сорвалась в хайп. Пользователи начали делать мемы, шутить про «restraining order against goblins», выкладывать новые примеры и обсуждать уже не только сам сбой, но и то, как странно выглядит попытка компании задушить его через жёсткий системный запрет.

OpenAI сама признала, что проблема реальна

29 апреля 2026 года OpenAI опубликовала материал «Where the goblins came from». Это уже был не комментарий в соцсетях и не полуофициальная реакция, а полноценный инженерный разбор. Компания написала, что после запуска GPT-5.1 частота слова goblin выросла на 175%, а gremlin - на 52%. Дальше след тянулся в следующие поколения моделей, и к моменту GPT-5.5 привычка стала достаточно заметной, чтобы её пришлось отдельно давить в Codex.

Здесь история резко меняет масштаб. Когда странную лексику замечают пользователи, это можно списать на несколько шумных скриншотов. Когда компания сама показывает рост по метрикам, мем перестаёт быть просто мемом. Он становится симптомом реального перекоса в обучении модели.

Сэм Альтман в публичной реакции сам подыграл истории и назвал происходящее «goblin moment».

Этот ход только усилил вирусность. Руководитель OpenAI не попытался сделать вид, что тема незначительная, а встроился в неё. В интернете это читается очень просто: если даже глава компании шутит про «гоблинский момент», значит, история уже перешла из категории локальных багов в разряд общеузнаваемых сюжетов вокруг ИИ.

Виновником оказался пресет Nerdy

Самая важная часть разбора OpenAI связана с персонализацией. Компания пишет, что аномалия особенно часто встречалась в пресете личности Nerdy. По её данным, этот стиль давал лишь 2,5% всех ответов ChatGPT, но на него приходилось 66,7% всех упоминаний слова goblin. Во внутреннем аудите reward-сигнал для этого режима в 76,2% датасетов систематически предпочитал варианты с goblin или gremlin ответам без таких слов.

Это и есть настоящий центр всей истории. Проблема возникла не потому, что модель «сошла с ума» и не потому, что кто-то вручную решил сделать её более мемной. OpenAI фактически показала, что при настройке личности игривый и слегка карикатурный тон оказался переоценён системой награды. Модель получила слишком чёткий сигнал, что такая манера речи выглядит желательной. Дальше началось статистическое закрепление.

В инженерном смысле это куда интереснее любого вирусного скриншота. Рынок получил редкий публичный пример того, как локально заданная манера общения начинает утекать за пределы своей песочницы. То, что задумывалось как стиль для небольшой части диалогов, стало просачиваться в более широкое поведение модели.

Как безобидный стиль превращается в системную привычку

OpenAI описывает произошедшее через feedback loop. Схема выглядит так: модель получает награду за игривый стиль, этот стиль чаще появляется в rollout-данных, затем похожие ответы попадают в последующее дообучение, после чего речевой тик закрепляется ещё сильнее. В результате конкретный словарь начинает всплывать уже там, где его никто не заказывал.

На языке хайпа это звучит почти как «гоблины пролезли в модель». На языке разработки всё прозаичнее и опаснее: система оптимизации зацепилась за неудачный паттерн и начала воспроизводить его всё шире. В такой истории пугает не само слово goblin. Пугает то, как быстро мелкая стилистическая аномалия может стать частью общего поведения сложной модели.

Здесь и вскрывается слабое место всей гонки за «живыми» ИИ-помощниками. Индустрия давно научилась делать модели вежливыми, разговорчивыми, тёплыми, деловыми, бодрыми или «дружелюбно-нердовыми». Но чем больше компании настраивают темперамент, тем выше риск, что один удачно поощрённый речевой жест начнёт жить собственной жизнью. История с гоблинами выглядит смешно только потому, что её побочный эффект оказался безобидным и хорошо видимым.

Почему соцсети раскрутили тему быстрее самой компании

Соцсети увидели не механизм, а симптом. Для пользователей не было никакого reward-signal leakage и никакой сложной истории про preference data. Люди просто заметили, что дорогой и серьёзный ИИ вдруг разговаривает так, будто в его словарь кто-то подмешал форумную фэнтези-лексику. Для массового обсуждения этого уже достаточно.

Есть и второй фактор. Такая тема идеально подходит под ритм X: короткий скриншот, абсурдная цитата, ещё более абсурдная системная инструкция, шутка сверху и лавина пересказов. Плюс это редкий случай, когда пользователи могут буквально ткнуть пальцем в конкретную строку промпта и сказать: «Смотрите, компания действительно борется с этим». У хайпа появляется вещественное доказательство.

Wired отдельно отмечал, что одну из причин связывали с использованием OpenClaw и других агентских обвязок, где в промпт попадает больше служебного контекста и персонализационных слоёв. Сотрудник OpenAI Ник Паш подтвердил, что это действительно было одним из факторов, замеченных в поле. То есть интернет не просто смеялся над случайным словом, а довольно быстро нащупал реальную связку между агентским режимом, персоной и всплывающим речевым тиком.

OpenAI уже начала зачищать последствия

Из release notes ChatGPT следует, что 16 марта 2026 года компания отправила в архив базовый стиль Nerdy, объяснив это упрощением опций и улучшением качества ответов. В своей статье OpenAI также пишет, что после запуска GPT-5.4 начала чистить обучающий контур: убрала goblin-affine reward signal и отфильтровала часть данных со словами из этой группы.

Но у этой истории есть неприятная деталь. По версии самой OpenAI, GPT-5.5 начал обучение ещё до того, как корневая причина была полностью понята. Поэтому даже после отключения Nerdy след эффекта успел дойти до следующей модели. В практическом смысле это означает, что однажды пойманный стилистический перекос не всегда выключается одним тумблером. Его приходится вычищать по всей цепочке обучения.

Почему кейс далеко за пределами мема

На первый взгляд история смешная до неприличия. В реальности она очень удобна как учебный пример для всей отрасли. Обычно сбои в больших языковых моделях или слишком абстрактны, или плохо различимы для внешнего наблюдателя. Здесь всё наоборот: проблема была видна всем, звучала абсурдно и потому отлично подсветила, как работает современная настройка поведения ИИ.

Главный вывод для рынка неприятный, но полезный. Компании уже довольно уверенно продают «личности» моделей, дружелюбный тон, рабочий стиль, агентские роли и разные сценарии взаимодействия. При этом даже у OpenAI остаются зоны, где стилистический слой может протечь глубже, чем задумывалось. Сегодня это гоблины. Завтра это может быть менее заметная привычка, которая не станет мемом, но сильнее повлияет на качество рабочих ответов. Этот вывод опирается на описанный OpenAI механизм и является редакционной интерпретацией его последствий.

Именно поэтому тема так хорошо зашла. Это редкий случай, когда хайп и реальная инженерная ценность совпали почти идеально. Пользователи получили мем, медиа - отличный сюжет, а разработчики - наглядное предупреждение: тонкая настройка моделей остаётся куда более хрупкой системой, чем кажется из рекламных демонстраций.

Проверочная точка будет позже

Сейчас OpenAI уже рассказала, что именно нашла и что уже выключила. Этого достаточно, чтобы снять часть вопросов к происхождению мема. Но настоящая проверка впереди: исчезнет ли подобный словарь в следующих моделях и покажет ли компания такую же прозрачность, если наружу вылезет менее смешной и более чувствительный поведенческий сбой. Это уже не вопрос про гоблинов. Это вопрос про управляемость современных LLM в целом. Вывод основан на открыто опубликованном разборе OpenAI и текущих публичных реакциях вокруг него.

07:26
201
Нет комментариев. Ваш будет первым!