Perplexity открыла бенчмарк DRACO для оценки глубоких исследований ИИ

Компания Perplexity представила открытый бенчмарк DRACO для оценки качества «глубоких исследований», выполняемых ИИ-агентами. Новый стандарт нацелен на проверку того, как системы справляются с реальными пользовательскими задачами — от академических обзоров до юридического и медицинского анализа.
Perplexity открыла бенчмарк DRACO для оценки глубоких исследований ИИ

Компания Perplexity объявила о запуске DRACO Benchmark - открытого инструмента для оценки точности, полноты и объективности ИИ-систем, предназначенных для сложных исследовательских задач. В Perplexity подчёркивают, что цель проекта - сократить разрыв между лабораторными тестами и тем, как пользователи действительно применяют ИИ в работе.

DRACO расшифровывается как Deep Research Accuracy, Completeness, and Objectivity. Бенчмарк основан не на синтетических заданиях, а на реальных запросах пользователей Perplexity Deep Research, обработанных и очищенных от персональных данных. По замыслу разработчиков, это делает результаты ближе к практическим сценариям, с которыми сталкиваются аналитики, исследователи и специалисты в бизнесе.

Почему Perplexity считает существующие бенчмарки недостаточными

В компании отмечают, что большинство популярных тестов проверяют изолированные навыки: поиск одного факта, ответ на вопрос или решение строго заданной задачи. Однако реальные исследования требуют другого подхода - синтеза данных из разных источников, аккуратной аргументации и корректных ссылок на первоисточники.

DRACO включает 100 заданий из десяти доменов, среди которых академические исследования, финансы, право, медицина, технологии, UX-дизайн, персональные ассистенты и сравнительный анализ товаров. Каждое задание сопровождается детализированным набором критериев - в среднем около 40 пунктов оценки.

Как устроена оценка в DRACO

Для разработки критериев Perplexity сотрудничала с компанией The LLM Data Company и профильными экспертами. Рубрики проходили многоэтапную проверку и калибровку: около 45% из них дорабатывались повторно, если оказывались слишком расплывчатыми или мягкими.

Оценка ведётся по четырём ключевым направлениям:

  1. фактическая точность,
  2. глубина и широта анализа,
  3. качество подачи,
  4. корректность и полнота ссылок на источники.

При этом часть критериев является «штрафной» - они снижают итоговый балл за галлюцинации или неподкреплённые утверждения. Проверка ответов проводится по модели LLM-as-a-judge с бинарными вердиктами, что, по словам разработчиков, упрощает верификацию фактов и снижает субъективность.

Результаты тестирования

С помощью DRACO компания сравнила четыре системы глубокого исследования. Perplexity Deep Research показала наивысшие показатели во всех десяти доменах, особенно в юридической сфере (89,4%) и академических задачах (82,4%). Существенный разрыв зафиксирован и в сценариях с высокой сложностью рассуждений - персонализированные запросы и поиск «иголки в стоге сена».

Отдельно в Perplexity отмечают эффективность: система с лучшими результатами продемонстрировала и минимальную задержку выполнения запросов - в среднем около 460 секунд против 600–1800 секунд у конкурентов. В компании связывают это с вертикально интегрированной инфраструктурой, включающей собственные инструменты поиска, браузерную среду и выполнение кода.

Что дальше

На текущий момент DRACO оценивает только англоязычные одношаговые запросы. В будущих версиях Perplexity планирует добавить многошаговые диалоги, расширить языковое покрытие и включить новые области знаний. Бенчмарк полностью открыт: опубликованы задания, критерии и промпты для оценки, а датасет доступен на Hugging Face .

09:50
162
Нет комментариев. Ваш будет первым!