Исследование показало, что чат-боты вроде GPT-4 способны извлекать личную информацию пользователей в ходе общения
Ученые из Швейцарской высшей технической школы Цюриха провели исследование, доказывающее, что крупные языковые модели вроде GPT-4 могут угадывать личную информацию пользователей по их диалогам в чатах и социальных сетях. Речь идет о таких данных, как пол, возраст, уровень дохода и местоположение.
Для эксперимента исследователи создали набор данных из реальных профилей пользователей Reddit и показали, что текущие языковые модели, особенно GPT-4, могут угадывать различные личные характеристики по этим текстам с высокой точностью. Модели достигали до 85% попаданий для топ-1 предположений и до 95,8% для топ-3. Это близко к возможностям человека, но ИИ делает это гораздо быстрее и дешевле.
Посмотрим на примере этой техники:
Рисунок 1. Извлечение персональных данных из диалога.
Предполагается, что злоумышленник имеет доступ к данным диалога, написанных пользователями (например, путем перебора интернет-форумов). Получив текст, злоумышленник создает модель, используя фиксированный шаблон (1). Затем они используют предварительно обученный LLM (2) для автоматического вывода персональных данных пользователя (3), что ранее требовало участия человека. Современные модели способны улавливать тонкие подсказки в тексте и языке, обеспечивая точность выводов на реальных данных. Наконец, в (4) модель использует свои предположения для вывода извлеченных данных профиля пользователя.
Это вызывает опасения относительно конфиденциальности данных пользователей. Ранее считалось, что основная угроза - это запоминание вредоносными моделями самих данных из обучающей выборки. Однако теперь ясно, что даже по косвенным признакам в текстах ИИ может выводить личную информацию.
Исследователи предупреждают, что по мере роста популярности чат-ботов растут риски того, что злоумышленники будут использовать их для извлечения персональных данных под видом безобидных диалогов.
Ученые призывают технологические компании обсудить проблему и внедрить меры защиты пользовательских данных, поскольку текущие методы анонимизации текстов неэффективны против возможностей языковых моделей.