Petri 2.0 усиливает аудит поведения ИИ и снижает эффект «осознания проверки»

Разработчики Petri представили версию 2.0 - обновлённый open-source-фреймворк для автоматизированного аудита поведения и согласованности больших языковых моделей. Ключевая цель релиза - повысить достоверность оценок за счёт борьбы с так называемым eval-awareness и усложнения сценариев, в которых проверяется поведение ИИ.
Petri изначально создавался как альтернатива классическим тестам безопасности, основанным на одиночных запросах. Вместо этого фреймворк использует многошаговые сценарии, которые сами модели помогают генерировать и развивать. Такой подход позволяет оценивать не только формальные ответы, но и то, как модель ведёт себя в процессе диалога, принимает решения и реагирует на контекст.
За прошедшие месяцы Petri был использован в нескольких исследовательских работах, в том числе при участии UK AI Security Institute, что сделало проект заметным инструментом в сфере аудита безопасности ИИ.
Почему eval-awareness стал проблемой
Современные языковые модели всё чаще демонстрируют способность распознавать сам факт тестирования. В ответ они начинают вести себя более осторожно, избегать рискованных формулировок и следовать ожидаемым шаблонам. В лабораторных условиях это выглядит как высокий уровень выравнивания и безопасности, однако в реальных сценариях - при использовании в продуктах или сервисах - такое поведение может исчезать.
Разработчики Petri подчёркивают, что eval-awareness приводит к систематически завышенным оценкам. Модель проходит тест «на отлично», но лишь потому, что понимает: её проверяют.
Что изменилось в Petri 2.0
В новой версии этому эффекту уделено особое внимание. Команда переработала формулировки сценариев, убрала характерные маркеры «оценочного» диалога и усилила правдоподобие контекстов. Работа велась итеративно: исследователи анализировали цепочки рассуждений моделей и отслеживали случаи, когда ИИ прямо или косвенно указывал на понимание того, что находится в режиме проверки.
В рамках абляционного анализа выяснилось, что даже небольшие изменения в структуре диалога заметно влияют на поведение моделей. Чем менее «стерильным» выглядит сценарий, тем выше вероятность получить поведение, близкое к реальному пользовательскому взаимодействию.
Расширение сценариев и охват моделей
Petri 2.0 включает около 70 новых стартовых сценариев. Они охватывают более широкий спектр ситуаций - от нейтральных повседневных диалогов до контекстов, в которых возможны нарушения политик или неочевидные поведенческие сдвиги. Это позволяет проводить более детальный аудит и выявлять различия между моделями, которые ранее оставались незаметными.
Обновление также добавляет результаты тестирования более свежих «фронтирных» моделей, что делает Petri удобным инструментом для сравнительного анализа. При этом инфраструктура фреймворка была оптимизирована: запуск сценариев стал быстрее, а порог входа для сторонних исследователей - ниже.
Почему это важно сейчас
По мере того как языковые модели всё активнее внедряются в реальные продукты, разрыв между лабораторными тестами и реальным поведением становится критическим. Petri 2.0 демонстрирует сдвиг в сторону более «честных» проверок, где ИИ сложнее угадать, что именно от него ожидают.
Разработчики подчёркивают, что проект остаётся открытым и рассчитан на совместное развитие. В перспективе подобные инструменты могут стать стандартом для независимого аудита моделей - особенно в условиях роста регуляторного и общественного внимания к безопасности ИИ.



