Исследование Anthropic показало новый тип рисков искусственного интеллекта

Исследователи из Anthropic выяснили, что по мере роста интеллекта ИИ и усложнения задач системы чаще ошибаются не «осмысленно», а хаотично. Вместо последовательного стремления к неправильной цели продвинутые модели всё чаще ведут себя как «горячий беспорядок» - непредсказуемо и несогласованно.
Исследование Anthropic показало новый тип рисков искусственного интеллекта

Одна из главных тревог вокруг будущего искусственного интеллекта связана с так называемым «максимайзером скрепки» - сценарием, при котором сверхразумная система последовательно и эффективно преследует неправильную цель. Однако новое исследование программы Anthropic Fellows показывает: в реальности всё может быть гораздо менее «рационально» - и оттого не менее опасно.

Учёные попытались ответить на вопрос: как именно будут выглядеть ошибки всё более умных ИИ, как холодный расчёт или как хаос?

Два типа провалов ИИ - в чём разница

В исследовании рассматриваются два принципиально разных сценария неудач.

  1. Первый - систематическая ошибка. В этом случае модель стабильно делает одно и то же неправильное действие. Она логична, последовательна, но движется не туда. Именно с таким типом ошибок обычно связывают риски «несогласованного ИИ».
  2. Второй - несогласованная ошибка. Здесь модель каждый раз ошибается по-разному: меняет решения, перескакивает между вариантами, противоречит сама себе. Такое поведение исследователи называют «incoherent» - несобранным и непредсказуемым.

Как это измеряли на практике

Чтобы не оставаться на уровне теории, команда Anthropic разобрала ошибки ИИ на составляющие. Упрощённо - они посмотрели, какая часть ошибок связана с устойчивым «смещением» модели, а какая возникает из-за случайных колебаний поведения.

Далее эти показатели сравнили:

  • при разной длине рассуждений,
  • на задачах разной сложности,
  • у моделей разного масштаба.

В тестах использовались экзаменационные вопросы, задачи на программирование, оценки безопасности и даже синтетические эксперименты, где ИИ имитировал работу оптимизатора.

Главный вывод исследования

Чем сложнее задача и чем дольше ИИ «думает», тем более хаотичными становятся его ошибки.

Модель не начинает уверенно добиваться неправильной цели. Напротив - её поведение всё чаще распадается на непоследовательные и трудно предсказуемые действия.

Неожиданный эффект масштабирования

Интуитивно кажется, что более крупные и «умные» модели должны быть более собранными. Исследование показывает более сложную картину.

На простых задачах масштабирование действительно снижает хаос - большие модели ведут себя аккуратнее. Но на сложных задачах эффект исчезает или даже обращается вспять: чем мощнее модель, тем более несогласованно она может ошибаться.

Проще говоря, увеличение интеллекта не гарантирует устойчивости поведения.

Почему это меняет разговор о рисках ИИ

Результаты Anthropic смещают акцент в обсуждении безопасности. Будущие проблемы ИИ могут напоминать не злонамеренный заговор сверхразума, а промышленные аварии - цепочки случайных сбоев, возникающих при перегрузке сложных систем.

Это не делает ИИ безопасным. Непредсказуемые системы опасны по-своему, особенно там, где ошибки нельзя быстро исправить или «откатить».

В исследовании подчёркивается, что ИИ может быстрее «понять», какую цель нужно достигать, чем научиться стабильно и последовательно действовать для её достижения.

Что из этого следует

Авторы подчёркивают: простое наращивание масштаба моделей не решит проблему. Если будущие ИИ будут всё чаще сталкиваться с длинными цепочками действий и сложными решениями, то без специальных механизмов контроля их поведение станет менее предсказуемым, а не более.

Это означает, что исследования в области согласования ИИ должны учитывать не только «неправильные цели», но и хаотичность поведения умных систем.


Более детально об исследовании читайте на официальном сайте по ссылке ниже а также, в журнале  arXiv

18:33
227
Нет комментариев. Ваш будет первым!