Claude Opus 4.5: новая ставка Anthropic на инженерный ИИ и офисных агентов

Самый сильный Opus линейки 4.5
Anthropic завершила линейку моделей «четыре с половиной», представив Opus 4.5 — самый производительный ИИ компании. Если предыдущие релизы Sonnet 4.5 и Haiku 4.5 закрывали средний и базовый сегменты, то Opus 4.5 явно рассчитан на тяжёлую эксплуатацию: длительные рефакторинги, управление инструментами, работу с офисными документами и полноценный агентный режим.
Модель получила контекст до 200 тысяч токенов и параметр effort — от «быстрого ответа» до глубокого анализа, фактически тонко регулируя уровень вычислительного «мышления». Для пользователей это означает, что Opus 4.5 можно подстраивать под задачу: от быстрых советов до академической разборчивости.
Отдельная ставка Anthropic — устойчивость модели на длинных диалогах. Компания заявляет, что Opus 4.5 способен поддерживать «бесконечные чаты», не теряя нить даже через сотни сообщений. Это важный момент для разработчиков, ведущих длительные проекты с ИИ.
Новые рекорды в SWE-bench и инженерных тестах
Главный фокус внимания — результаты знаменитого SWE-bench Verified. Это один из немногих бенчмарков, который имитирует реальное программирование: модель получает GitHub-репозиторий с багом и должна сама локализовать проблему, предложить исправление и пройти тесты.

Opus 4.5 стал первой моделью, которая пробила планку в 80% — точнее, 80,9%. Для сравнения: Gemini 3 Pro набирал около 76%, GPT-5.1 — примерно 76–78%, а Sonnet 4.5 держался на уровне 77%.
В других инженерных тестах картина похожа:
- Terminal-Bench: 59,3% против 54,2% у Gemini 3 Pro.
- ARC-AGI-2 (логика и абстрактные паттерны): 37,6% — вдвое выше, чем у GPT-5.1.
- OSWorld (работа с графическим интерфейсом): 66,3% — рекорд для задач «компьютерного использования».
Интересно, что в более «академических» наборах — MMLU, GPQA Diamond, MMMU — Opus 4.5 уже не доминирует. Gemini 3 Pro и GPT-5.1 там сохраняют лидерство. Это ещё раз подчёркивает специализацию модели на практической инженерии, а не на энциклопедическом интеллекте.

Агентность: от «лазеек» до реальной автономности
Отдельного внимания заслуживают тесты на агентное поведение. Anthropic активно продвигает идею, что Opus 4.5 — это «цифровой сотрудник», который умеет планировать, пользоваться инструментами и доводить задачу до конца.
Показательная история произошла с тестом τ²-Bench Airline: по правилам модель должна была отказать клиенту в изменении билета базового тарифа. Но Opus 4.5 нашла легальный манёвр: сначала перевести пассажира в более высокий класс, где изменение допускается, а затем перенести дату. Формально бенчмарк поставил «провал», но по сути это пример живого, творческого решения в рамках правил — редко встречающегося поведения для ИИ.
При этом Anthropic подчёркивает, что улучшила устойчивость модели к так называемому reward hacking и prompt injection. То есть Opus 4.5 реже пытается обмануть систему ради лучшего результата и лучше фильтрует вредные инструкции.
Первые практические тесты: живые примеры разработчиков
Ранний доступ к Opus 4.5 получили несколько инженеров, и первые отзывы резко контрастируют с прежними моделями.
Саймон Уиллисон, автор Datasette и SQLite-utils, использовал Opus 4.5 для массового рефакторинга: за два дня модель помогла внести десятки коммитов в 39 файлов. По его словам, Opus 4.5 не только держит большой контекст, но и почти не ломает архитектуру проекта — проблема, характерная для многих ИИ-помощников.
Другие разработчики сообщают, что модель:
- лучше ориентируется в «захламлённых» кодовых базах;
- чаще выдаёт рабочее решение с первой–второй попытки;
- заметно меньше галлюцинирует в инженерных задачах.
При этом для быстрых наработок многие продолжают использовать более дешёвые модели, а Opus 4.5 берут как «архитектора» или ревьюера перед финальным деплоем.
Цена: главный сюрприз релиза
Anthropic резко снизила стоимость использования флагмана:
- Opus 4.5: $5 за 1 млн входных токенов, $25 за 1 млн выходных.
- Opus 4.1: $15 и $75 соответственно.
Снижение почти в три раза выводит модель из элитной категории «для крупных корпораций» в область рабочих инструментов.
Дополнительно через batch API и кэширование запросов стоимость можно уменьшить до примерно $2,5 / $12,5 за миллион токенов. Для сравнения: подобные цены год назад казались фантастикой для топовых моделей.
Доступность и интеграции: Chrome, Excel, Copilot
Opus 4.5 уже работает:
- в веб-интерфейсе Claude для тарифов Pro, Max, Team, Enterprise;
- через API (claude-opus-4-5);
- в AWS Bedrock, Google Vertex AI и Microsoft Foundry.
Появились и новые интеграции:
Claude for Excel
Модель ведёт себя как «ИИ-аналитик»: строит формулы, работает с графиками, сводными таблицами и контекстом данных. Тесты показывают рост точности примерно на 20% по сравнению с предыдущими версиями.
Claude for Chrome
Opus 4.5 получает доступ к DOM-структуре страницы и работает как настоящий веб-агент: проходит многошаговые формы, читает документацию, собирает цены, формирует отчёты. На этой связке модель показывает рекорды в OSWorld.
Для корпораций, где важны отчёты, электронные таблицы и автоматизация офисных процессов, это серьёзный аргумент в пользу Anthropic.
Безопасность: упор на защиту от инъекций
Anthropic традиционно выделяет безопасность как ключевую ценность, и Opus 4.5 явно усилили в этом направлении. По заявлению компании, модель лучше конкурентов противостоит prompt injection и демонстрирует «наименьшее тревожное поведение» среди актуальных флагманов.
При этом сами исследователи предупреждают: успешные атаки возможны, пусть и реже. Поэтому модели категории Opus 4.5 нельзя бездумно допускать в открытые агентные среды — требуется системная защита на уровне приложения.
Что это означает для рынка
Сегодняшняя ситуация выглядит так:
- Anthropic укрепляет позицию лидера в инженерных задачах и автономных агентах.
- Google с Gemini 3 Pro удерживает преимущество в мультимодальности и научных тестах.
- OpenAI с GPT-5.1 остаётся универсальной моделью, сильной на диалогах и в экосистеме приложений.
Но главное другое: топовые модели становятся значительно дешевле. То, что пару сезонов назад требовало Opus за $75 за миллион токенов, теперь решается втрое дешевле — и на более высоком уровне.
Opus 4.5 уже вписывается в рабочие процессы как:
- основной инженер-ИИ для больших кодовых баз;
- головной агент для более дешёвых подмоделей;
- автоматизатор офисных задач с использованием Excel и браузера.
Очевидно, что в ближайшие месяцы разработчики будут «переписывать» свои пайплайны под Opus 4.5, Gemini 3 Pro или GPT-5.1 — и борьба смещается от маркетинговых демо к реальной эффективности в производственных задачах.



