Исследование Anthropic показало новый тип рисков искусственного интеллекта

Одна из главных тревог вокруг будущего искусственного интеллекта связана с так называемым «максимайзером скрепки» - сценарием, при котором сверхразумная система последовательно и эффективно преследует неправильную цель. Однако новое исследование программы Anthropic Fellows показывает: в реальности всё может быть гораздо менее «рационально» - и оттого не менее опасно.
Учёные попытались ответить на вопрос: как именно будут выглядеть ошибки всё более умных ИИ, как холодный расчёт или как хаос?
Два типа провалов ИИ - в чём разница
В исследовании рассматриваются два принципиально разных сценария неудач.
- Первый - систематическая ошибка. В этом случае модель стабильно делает одно и то же неправильное действие. Она логична, последовательна, но движется не туда. Именно с таким типом ошибок обычно связывают риски «несогласованного ИИ».
- Второй - несогласованная ошибка. Здесь модель каждый раз ошибается по-разному: меняет решения, перескакивает между вариантами, противоречит сама себе. Такое поведение исследователи называют «incoherent» - несобранным и непредсказуемым.
Как это измеряли на практике
Чтобы не оставаться на уровне теории, команда Anthropic разобрала ошибки ИИ на составляющие. Упрощённо - они посмотрели, какая часть ошибок связана с устойчивым «смещением» модели, а какая возникает из-за случайных колебаний поведения.
Далее эти показатели сравнили:
- при разной длине рассуждений,
- на задачах разной сложности,
- у моделей разного масштаба.
В тестах использовались экзаменационные вопросы, задачи на программирование, оценки безопасности и даже синтетические эксперименты, где ИИ имитировал работу оптимизатора.
Главный вывод исследования
Чем сложнее задача и чем дольше ИИ «думает», тем более хаотичными становятся его ошибки.
Модель не начинает уверенно добиваться неправильной цели. Напротив - её поведение всё чаще распадается на непоследовательные и трудно предсказуемые действия.
Неожиданный эффект масштабирования
Интуитивно кажется, что более крупные и «умные» модели должны быть более собранными. Исследование показывает более сложную картину.
На простых задачах масштабирование действительно снижает хаос - большие модели ведут себя аккуратнее. Но на сложных задачах эффект исчезает или даже обращается вспять: чем мощнее модель, тем более несогласованно она может ошибаться.
Проще говоря, увеличение интеллекта не гарантирует устойчивости поведения.
Почему это меняет разговор о рисках ИИ
Результаты Anthropic смещают акцент в обсуждении безопасности. Будущие проблемы ИИ могут напоминать не злонамеренный заговор сверхразума, а промышленные аварии - цепочки случайных сбоев, возникающих при перегрузке сложных систем.
Это не делает ИИ безопасным. Непредсказуемые системы опасны по-своему, особенно там, где ошибки нельзя быстро исправить или «откатить».
В исследовании подчёркивается, что ИИ может быстрее «понять», какую цель нужно достигать, чем научиться стабильно и последовательно действовать для её достижения.
Что из этого следует
Авторы подчёркивают: простое наращивание масштаба моделей не решит проблему. Если будущие ИИ будут всё чаще сталкиваться с длинными цепочками действий и сложными решениями, то без специальных механизмов контроля их поведение станет менее предсказуемым, а не более.
Это означает, что исследования в области согласования ИИ должны учитывать не только «неправильные цели», но и хаотичность поведения умных систем.
Более детально об исследовании читайте на официальном сайте по ссылке ниже а также, в журнале arXiv