Anthropic передала инструмент тестирования выравнивания Petri 3.0

Anthropic передала свой открытый инструмент тестирования ИИ-моделей Petri некоммерческой организации по оценке искусственного интеллекта Meridian Labs. Одновременно вышла версия 3.0 с тремя крупными обновлениями. С этого момента инструмент официально не принадлежит ни одной из коммерческих лабораторий.
Anthropic передала инструмент тестирования выравнивания Petri 3.0

Petri - набор автоматических тестов, которые проверяют, склонна ли ИИ-модель к обману, угодничеству и выполнению вредоносных запросов. С момента выхода Claude Sonnet 4.5 Anthropic использует его при каждом новом релизе Claude. Интерес к инструменту вышел за пределы одной компании: Институт безопасности ИИ Великобритании (UK AISI) сделал Petri основой своих оценок моделей на склонность к саботажу исследований.

Как Petri тестирует модели

Схема работает в три звена. Отдельная модель-аудитор разыгрывает сценарии с тестируемой моделью. Затем третья модель-судья изучает записи диалогов и оценивает их на наличие нежелательного поведения. Всё это автоматически, без участия человека в каждом прогоне.

Реализм, гибкость и глубина: что изменилось в 3.0

Обновлений три, и каждое закрывает конкретную слабость предыдущих версий.

  1. Первое - гибкость. Архитектура теперь разделяет модель-аудитор и тестируемую модель на независимые компоненты. Их можно настраивать отдельно, что позволяет применять Petri в более широком диапазоне сценариев и под конкретные задачи организации.
  2. Второе - реализм. Новый модуль Dish подключает реальный системный промпт и реальный scaffolding - программную оболочку, в которой модель работает в продакшене. Проблема в том, что модели умеют замечать признаки искусственно собранного тестового окружения. Anthropic признаёт это открыто, и это само по себе честный методологический жест. Dish не обещает полного решения, но убирает самые очевидные артефакты.
  3. Третье - глубина. Petri 3.0 интегрирован с Bloom - ещё одним открытым инструментом выравнивания от Anthropic. Petri работает вширь: много сценариев, общий охват. Bloom углубляется в конкретные паттерны поведения. Связка позволяет сначала засечь проблему широким сканом, потом разобрать её детально.

Почему Anthropic отдаёт инструмент, а не оставляет у себя

Компания, тестирующая собственные модели собственным инструментом, всегда под вопросом: насколько объективны результаты? Meridian Labs не разрабатывает модели. Её оценки не несут репутационного интереса ни одного из конкурентов. Результаты, опубликованные независимой некоммерческой организацией, воспринимаются иначе, чем результаты, опубликованные самим разработчиком.

Это уже второй подобный шаг Anthropic. В 2024 году компания передала протокол MCP (стандарт взаимодействия ИИ-агентов с внешними инструментами) в ведение Linux Foundation по той же логике: чем нейтральнее инфраструктура, тем шире она принимается.

Petri в общем стеке Meridian Labs

В рамках Meridian Labs Petri встаёт рядом с Inspect - инструментом оценки от UK AISI - и Scout. Организация строит открытый технологический стек для оценки ИИ-моделей, который доступен лабораториям, независимым исследователям и государственным регуляторам одновременно.

Оценка безопасности ИИ-моделей до сих пор оставалась преимущественно внутренним делом каждой лаборатории. Инструменты, применимые к любой модели и не принадлежащие никому из конкурентов, меняют это уравнение. Petri 3.0 в Meridian Labs - небольшой, но конкретный шаг к тому, чтобы тестирование выравнивания стало промышленным стандартом. Главный вопрос - примут ли его остальные крупные лаборатории так же охотно, как регуляторы.

12:40
140
Нет комментариев. Ваш будет первым!