Anthropic бросает вызов хакерам: 15 000 долларов за взлом системы безопасности ИИ

Компания Anthropic расширяет свою программу вознаграждений за обнаружение уязвимостей в системах безопасности ИИ, фокусируясь на выявлении универсальных методов обхода защитных механизмов. Это решение направлено на укрепление безопасности ИИ-моделей в критически важных областях.
Anthropic бросает вызов хакерам: 15 000 долларов за взлом системы безопасности ИИ

Компания Anthropic, один из лидеров в области разработки искусственного интеллекта, объявила о значительном расширении своей программы вознаграждений за обнаружение уязвимостей. Новая инициатива направлена на поиск недостатков в системах защиты ИИ-моделей от неправомерного использования, что становится все более актуальным в свете стремительного развития возможностей искусственного интеллекта.

Ключевой фокус новой программы – выявление так называемых "универсальных джейлбрейков". Это методы, позволяющие последовательно обходить меры безопасности ИИ в широком спектре областей. Особое внимание уделяется критически важным и высокорисковым сферам, таким как ХБРЯ (химическое, биологическое, радиологическое и ядерное оружие) и кибербезопасность.

"Программы вознаграждений за обнаружение уязвимостей играют ключевую роль в укреплении безопасности технологических систем",

– отмечает представитель Anthropic.

"Наша новая инициатива направлена на выявление и устранение наиболее серьезных уязвимостей в критически важных областях".

Программа будет реализована в партнерстве с платформой HackerOne и начнется как закрытая инициатива для приглашенных участников. Исследователи получат ранний доступ к тестированию новейшей системы безопасности Anthropic еще до ее публичного развертывания. За обнаружение новых, универсальных методов обхода защиты компания готова выплачивать вознаграждения до 15 000 долларов (около 1,4 млн рублей).

"Универсальный джейлбрейк – это тип уязвимости в системах ИИ, который позволяет пользователю последовательно обходить меры безопасности по широкому кругу тем", – поясняет технический эксперт Anthropic. "Выявление и устранение таких уязвимостей – ключевая цель нашей инициативы".

Компания планирует в будущем расширить программу, сделав ее доступной для более широкого круга исследователей. На данном этапе Anthropic приглашает опытных специалистов по безопасности ИИ и экспертов в области выявления уязвимостей языковых моделей подать заявки на участие до 16 августа.

Эта инициатива соответствует обязательствам, которые Anthropic и другие ведущие компании в сфере ИИ взяли на себя в рамках добровольных соглашений, анонсированных Белым домом, и Кодекса поведения для организаций, разрабатывающих передовые системы ИИ, разработанного в рамках процесса G7 в Хиросиме.

"Наша цель – ускорить прогресс в устранении универсальных методов обхода защиты и укрепить безопасность ИИ в областях высокого риска",

– заявляет руководство Anthropic.

"Мы призываем экспертов присоединиться к этой важнейшей работе. Ваш вклад может сыграть ключевую роль в обеспечении того, чтобы по мере развития возможностей ИИ наши меры безопасности не отставали".

Эксперты в области кибербезопасности отмечают важность подобных инициатив. "В эпоху стремительного развития ИИ критически важно, чтобы меры безопасности развивались так же быстро, как и сами технологии", – комментирует Алексей Иванов, специалист по кибербезопасности. "Программа Anthropic – это шаг в правильном направлении".

12:52
40
​Anthropic
Anthropic одна из передовых компаний в области искусственного интеллекта, ставящей перед собой амбициозные цели по созданию безопасных и этичных AI-систем таких как Claude.
Нет комментариев. Ваш будет первым!
Посещая этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.