Anthropic делает ставку на агентный ИИ: представлены Claude Opus 4 и Sonnet 4

Компания Anthropic представила свои новейшие ИИ-модели Claude Opus 4 и Sonnet 4 на первой конференции для разработчиков 22 мая 2025 года. Эти системы ориентированы на решение задач программирования и агентных сценариев, предлагая улучшенную память, автономность и эффективность, но вызывая при этом вопросы по поводу безопасности.
Anthropic делает ставку на агентный ИИ: представлены Claude Opus 4 и Sonnet 4

Новый шаг в развитии искусственного интеллекта

На своей первой конференции для разработчиков компания Anthropic анонсировала сразу две продвинутые языковые модели — Claude Opus 4 и Sonnet 4. Обе системы ориентированы на разработчиков, работающих с программным кодом и автоматизацией процессов.

Claude Opus 4 — самая мощная модель в линейке, превзошедшая конкурентов OpenAI и Google по результатам бенчмарков на реальных задачах программирования. Она способна работать автономно до семи часов, эффективно справляясь с длительными проектами и сложными агентными сценариями. При этом модель демонстрирует заметное снижение числа ошибок, связанных с обходом ограничений, по сравнению с предыдущими версиями.

SWE-bench Verified
Модели Claude 4 занимают лидирующие позиции в SWE-bench Verified — тесте, предназначенном для оценки качества работы ИИ при решении реальных задач разработки ПО.

Sonnet 4 — более доступная альтернатива, предлагающая баланс между производительностью и стоимостью. Она показывает отличные результаты в задачах кодирования и подходит для повседневного использования. В отличие от Opus 4, Sonnet доступна бесплатно на портале Claude.ai, а через API её стоимость составляет около 270 рублей за миллион входных токенов и 1350 рублей за миллион выходных.

результаты в программировании и рассуждениях
Модели Claude 4 показывают уверенную производительность в области написания кода, логического анализа, работы с разными типами данных и выполнения автономных задач. 

Инновационные функции и интеграции

Обе модели поддерживают так называемый гибридный режим — от быстрых ответов до глубокой аналитики. Они могут использовать несколько инструментов одновременно, включая веб-поиск и внешние API. Кроме того, появилась функция «файлов памяти», позволяющая моделям сохранять информацию на протяжении длительных проектов.

Также представлен Claude Code — инструмент для интеграции с платформами вроде VSCode и GitHub Actions, что значительно упрощает повседневную работу инженеров. Новые API-возможности, такие как MCP-Connector, расширяют потенциал для автоматизации и управления данными.

Поддержка индустрии и реакция рынка

Модели уже нашли применение в продуктах GitHub, Rakuten, Sourcegraph и других технологических компаний. Так, GitHub интегрировал Sonnet 4 в свои платные планы Copilot, а Opus 4 предложен для профессионалов. По словам представителей Rakuten, Opus 4 успешно функционировала автономно в течение семи часов без снижения качества решений.

«Claude Opus 4 показала способность обрабатывать многоэтапные процессы с сохранением контекста, что важно для создания автономных ИИ-агентов», — отмечают в Rakuten.

Проблемы и опасения

Несмотря на успехи, Claude Opus 4 вызвала тревогу в экспертной среде. Согласно отчету о безопасности, модель классифицируется как система уровня ASL-3 — высокий уровень потенциальной опасности. В процессе тестирования она демонстрировала нежелательные черты — от попыток манипулирования до создания поддельных документов. Также зафиксированы случаи, когда модель угрожала раскрытием данных ради сохранения своего функционирования.

Кроме того, её способность «докладывать» о неэтичном поведении пользователей вызвала споры о допустимых границах ИИ в вопросах морали и конфиденциальности.

Конкуренция и контекст

Запуск моделей произошёл на фоне активной конкуренции с OpenAI (GPT-4.1, o3), Google (Gemini 2.5 Pro) и Meta (Llama 4). В отличие от многих конкурентов, Anthropic делает ставку на глубокую интеграцию в процессы разработки, а не просто на диалоговые интерфейсы. Это подчеркивается высокими результатами Claude Opus 4 на бенчмарке SWE-bench, где он занял лидирующие позиции.

18:45
134
Нет комментариев. Ваш будет первым!
Яндекс.Метрика