Claude Opus 4.5: новая ставка Anthropic на инженерный ИИ и офисных агентов

Anthropic представила Claude Opus 4.5 — новую флагманскую модель, которая неожиданно сместила конкурентов в ключевых инженерных задачах: от автоматизации в браузере и Excel до реального программирования в больших кодовых базах. При цене, сниженной втрое, модель показывает рекордные результаты в бенчмарках и заметно меняет расстановку сил среди «рабочих» ИИ для разработчиков и корпоративных агентов.
Claude Opus 4.5: новая ставка Anthropic на инженерный ИИ и офисных агентов

Самый сильный Opus линейки 4.5

Anthropic завершила линейку моделей «четыре с половиной», представив Opus 4.5 — самый производительный ИИ компании. Если предыдущие релизы Sonnet 4.5 и Haiku 4.5 закрывали средний и базовый сегменты, то Opus 4.5 явно рассчитан на тяжёлую эксплуатацию: длительные рефакторинги, управление инструментами, работу с офисными документами и полноценный агентный режим.

Модель получила контекст до 200 тысяч токенов и параметр effort — от «быстрого ответа» до глубокого анализа, фактически тонко регулируя уровень вычислительного «мышления». Для пользователей это означает, что Opus 4.5 можно подстраивать под задачу: от быстрых советов до академической разборчивости.

Отдельная ставка Anthropic — устойчивость модели на длинных диалогах. Компания заявляет, что Opus 4.5 способен поддерживать «бесконечные чаты», не теряя нить даже через сотни сообщений. Это важный момент для разработчиков, ведущих длительные проекты с ИИ.

Новые рекорды в SWE-bench и инженерных тестах

Главный фокус внимания — результаты знаменитого SWE-bench Verified. Это один из немногих бенчмарков, который имитирует реальное программирование: модель получает GitHub-репозиторий с багом и должна сама локализовать проблему, предложить исправление и пройти тесты.

Новые рекорды в SWE-bench

Opus 4.5 стал первой моделью, которая пробила планку в 80% — точнее, 80,9%. Для сравнения: Gemini 3 Pro набирал около 76%, GPT-5.1 — примерно 76–78%, а Sonnet 4.5 держался на уровне 77%.

В других инженерных тестах картина похожа:

  • Terminal-Bench: 59,3% против 54,2% у Gemini 3 Pro.
  • ARC-AGI-2 (логика и абстрактные паттерны): 37,6% — вдвое выше, чем у GPT-5.1.
  • OSWorld (работа с графическим интерфейсом): 66,3% — рекорд для задач «компьютерного использования».

Интересно, что в более «академических» наборах — MMLU, GPQA Diamond, MMMU — Opus 4.5 уже не доминирует. Gemini 3 Pro и GPT-5.1 там сохраняют лидерство. Это ещё раз подчёркивает специализацию модели на практической инженерии, а не на энциклопедическом интеллекте.

инженерные тесты

Агентность: от «лазеек» до реальной автономности

Отдельного внимания заслуживают тесты на агентное поведение. Anthropic активно продвигает идею, что Opus 4.5 — это «цифровой сотрудник», который умеет планировать, пользоваться инструментами и доводить задачу до конца.

Показательная история произошла с тестом τ²-Bench Airline: по правилам модель должна была отказать клиенту в изменении билета базового тарифа. Но Opus 4.5 нашла легальный манёвр: сначала перевести пассажира в более высокий класс, где изменение допускается, а затем перенести дату. Формально бенчмарк поставил «провал», но по сути это пример живого, творческого решения в рамках правил — редко встречающегося поведения для ИИ.

При этом Anthropic подчёркивает, что улучшила устойчивость модели к так называемому reward hacking и prompt injection. То есть Opus 4.5 реже пытается обмануть систему ради лучшего результата и лучше фильтрует вредные инструкции.

Первые практические тесты: живые примеры разработчиков

Ранний доступ к Opus 4.5 получили несколько инженеров, и первые отзывы резко контрастируют с прежними моделями.

Саймон Уиллисон, автор Datasette и SQLite-utils, использовал Opus 4.5 для массового рефакторинга: за два дня модель помогла внести десятки коммитов в 39 файлов. По его словам, Opus 4.5 не только держит большой контекст, но и почти не ломает архитектуру проекта — проблема, характерная для многих ИИ-помощников.

Другие разработчики сообщают, что модель:

  • лучше ориентируется в «захламлённых» кодовых базах;
  • чаще выдаёт рабочее решение с первой–второй попытки;
  • заметно меньше галлюцинирует в инженерных задачах.

При этом для быстрых наработок многие продолжают использовать более дешёвые модели, а Opus 4.5 берут как «архитектора» или ревьюера перед финальным деплоем.

Цена: главный сюрприз релиза

Anthropic резко снизила стоимость использования флагмана:

  • Opus 4.5: $5 за 1 млн входных токенов, $25 за 1 млн выходных.
  • Opus 4.1: $15 и $75 соответственно.

Снижение почти в три раза выводит модель из элитной категории «для крупных корпораций» в область рабочих инструментов.

Дополнительно через batch API и кэширование запросов стоимость можно уменьшить до примерно $2,5 / $12,5 за миллион токенов. Для сравнения: подобные цены год назад казались фантастикой для топовых моделей.

Доступность и интеграции: Chrome, Excel, Copilot

Opus 4.5 уже работает:

  • в веб-интерфейсе Claude для тарифов Pro, Max, Team, Enterprise;
  • через API (claude-opus-4-5);
  • в AWS Bedrock, Google Vertex AI и Microsoft Foundry.

Появились и новые интеграции:

Claude for Excel

Модель ведёт себя как «ИИ-аналитик»: строит формулы, работает с графиками, сводными таблицами и контекстом данных. Тесты показывают рост точности примерно на 20% по сравнению с предыдущими версиями.

Claude for Chrome

Opus 4.5 получает доступ к DOM-структуре страницы и работает как настоящий веб-агент: проходит многошаговые формы, читает документацию, собирает цены, формирует отчёты. На этой связке модель показывает рекорды в OSWorld.

Для корпораций, где важны отчёты, электронные таблицы и автоматизация офисных процессов, это серьёзный аргумент в пользу Anthropic.

Безопасность: упор на защиту от инъекций

Anthropic традиционно выделяет безопасность как ключевую ценность, и Opus 4.5 явно усилили в этом направлении. По заявлению компании, модель лучше конкурентов противостоит prompt injection и демонстрирует «наименьшее тревожное поведение» среди актуальных флагманов.

При этом сами исследователи предупреждают: успешные атаки возможны, пусть и реже. Поэтому модели категории Opus 4.5 нельзя бездумно допускать в открытые агентные среды — требуется системная защита на уровне приложения.

Что это означает для рынка

Сегодняшняя ситуация выглядит так:

  • Anthropic укрепляет позицию лидера в инженерных задачах и автономных агентах.
  • Google с Gemini 3 Pro удерживает преимущество в мультимодальности и научных тестах.
  • OpenAI с GPT-5.1 остаётся универсальной моделью, сильной на диалогах и в экосистеме приложений.

Но главное другое: топовые модели становятся значительно дешевле. То, что пару сезонов назад требовало Opus за $75 за миллион токенов, теперь решается втрое дешевле — и на более высоком уровне.

Opus 4.5 уже вписывается в рабочие процессы как:

  • основной инженер-ИИ для больших кодовых баз;
  • головной агент для более дешёвых подмоделей;
  • автоматизатор офисных задач с использованием Excel и браузера.

Очевидно, что в ближайшие месяцы разработчики будут «переписывать» свои пайплайны под Opus 4.5, Gemini 3 Pro или GPT-5.1 — и борьба смещается от маркетинговых демо к реальной эффективности в производственных задачах.

17:50
265
​Anthropic
Anthropic одна из передовых компаний в области искусственного интеллекта, ставящей перед собой амбициозные цели по созданию безопасных и этичных AI-систем таких как Claude.
Нет комментариев. Ваш будет первым!