Perplexity открыла бенчмарк DRACO для оценки глубоких исследований ИИ

Компания Perplexity объявила о запуске DRACO Benchmark - открытого инструмента для оценки точности, полноты и объективности ИИ-систем, предназначенных для сложных исследовательских задач. В Perplexity подчёркивают, что цель проекта - сократить разрыв между лабораторными тестами и тем, как пользователи действительно применяют ИИ в работе.
DRACO расшифровывается как Deep Research Accuracy, Completeness, and Objectivity. Бенчмарк основан не на синтетических заданиях, а на реальных запросах пользователей Perplexity Deep Research, обработанных и очищенных от персональных данных. По замыслу разработчиков, это делает результаты ближе к практическим сценариям, с которыми сталкиваются аналитики, исследователи и специалисты в бизнесе.
Почему Perplexity считает существующие бенчмарки недостаточными
В компании отмечают, что большинство популярных тестов проверяют изолированные навыки: поиск одного факта, ответ на вопрос или решение строго заданной задачи. Однако реальные исследования требуют другого подхода - синтеза данных из разных источников, аккуратной аргументации и корректных ссылок на первоисточники.
DRACO включает 100 заданий из десяти доменов, среди которых академические исследования, финансы, право, медицина, технологии, UX-дизайн, персональные ассистенты и сравнительный анализ товаров. Каждое задание сопровождается детализированным набором критериев - в среднем около 40 пунктов оценки.
Как устроена оценка в DRACO
Для разработки критериев Perplexity сотрудничала с компанией The LLM Data Company и профильными экспертами. Рубрики проходили многоэтапную проверку и калибровку: около 45% из них дорабатывались повторно, если оказывались слишком расплывчатыми или мягкими.
Оценка ведётся по четырём ключевым направлениям:
- фактическая точность,
- глубина и широта анализа,
- качество подачи,
- корректность и полнота ссылок на источники.
При этом часть критериев является «штрафной» - они снижают итоговый балл за галлюцинации или неподкреплённые утверждения. Проверка ответов проводится по модели LLM-as-a-judge с бинарными вердиктами, что, по словам разработчиков, упрощает верификацию фактов и снижает субъективность.
Результаты тестирования
С помощью DRACO компания сравнила четыре системы глубокого исследования. Perplexity Deep Research показала наивысшие показатели во всех десяти доменах, особенно в юридической сфере (89,4%) и академических задачах (82,4%). Существенный разрыв зафиксирован и в сценариях с высокой сложностью рассуждений - персонализированные запросы и поиск «иголки в стоге сена».
Отдельно в Perplexity отмечают эффективность: система с лучшими результатами продемонстрировала и минимальную задержку выполнения запросов - в среднем около 460 секунд против 600–1800 секунд у конкурентов. В компании связывают это с вертикально интегрированной инфраструктурой, включающей собственные инструменты поиска, браузерную среду и выполнение кода.
Что дальше
На текущий момент DRACO оценивает только англоязычные одношаговые запросы. В будущих версиях Perplexity планирует добавить многошаговые диалоги, расширить языковое покрытие и включить новые области знаний. Бенчмарк полностью открыт: опубликованы задания, критерии и промпты для оценки, а датасет доступен на Hugging Face .


