LLM Council: Карпатый запустил сервис коллективных ответов от четырёх языковых моделей

Андрей Карпатый представил экспериментальный сервис LLM Council - инструмент, который позволяет нескольким языковым моделям одновременно отвечать на один запрос, оценивать работы друг друга и формировать коллективный итог. Приложение превращает обычный диалог с ИИ в работу целого «совета» нейросетей.
LLM Council: Карпатый запустил сервис коллективных ответов от четырёх языковых моделей

Андрей Карпатый, разработчик и сооснователь OpenAI, собрал за выходные веб-приложение LLM Council — инструмент, который превращает единичный запрос пользователя в работу небольшого «комитета» нейросетей. Снаружи приложение напоминает привычный интерфейс чат-бота, но внутри параллельно трудятся сразу четыре модели: GPT-5.1, Gemini 3 Pro, Claude Sonnet 4.5 и Grok 4.

Сервис размещён на GitHub и использует OpenRouter — агрегатор, который позволяет обращаться к разным LLM через единый API-ключ, без регистрации у каждого провайдера отдельно.

Работа устроена в три этапа. Сначала пользователь отправляет запрос, и каждая из четырёх моделей формирует собственный ответ независимо от остальных. Затем начинается более интересная часть: нейросети получают анонимные ответы коллег и должны оценить их по нескольким критериям — глубине, точности и качеству аргументации. Авторство скрыто, поэтому у моделей нет возможности «поддерживать» своих.

На последнем шаге вступает «председатель совета» — отдельная модель, которую Карпатый назначил на эту роль из Gemini 3 Pro. Она видит исходный вопрос, все ответы и все оценки, после чего составляет итоговый, коллективный вариант. По сути это управляемый многомодельный воркфлоу, где одна модель выступает в роли менеджера, а остальные — исполнители и критики.

Карпатый использует LLM Council для анализа книг: разные модели предлагают свои пересказы и толкования сложных фрагментов, а затем сами определяют, чьи мысли точнее. По наблюдениям разработчика, совет чаще всего ставит GPT-5.1 на первое место — как наиболее глубокую модель. Claude обычно оказывается в конце списка, а Gemini 3 Pro и Grok 4 занимают промежуточные позиции.

При этом Карпатый подчеркивает, что не всегда согласен с «голосованием» ИИ: GPT-5.1 кажется ему чрезмерно многословным, Claude — слишком лаконичным, а Gemini 3 Pro — более структурированным и точным.

Идея совета моделей пересекается с концепциями, которые используют GPT-5 Pro или Gemini 2.5 Deep Think, где несколько нейросетей работают параллельно. Однако ключевая особенность LLM Council — возможность комбинировать ИИ от разных компаний. Такой подход показывает сильные и слабые стороны моделей на реальных запросах, а не только на формальных бенчмарках.

Кроме того, инструмент работает как практический карманный бенчмарк: можно наблюдать, какие модели стабильно получают высокие оценки, где они расходятся в интерпретации сложных текстов, и насколько их внутренний консенсус совпадает с человеческой оценкой. Всё это превращает LLM Council в простой и наглядный пример многоагентной работы без сложных терминов и инфраструктурных настроек.

llm
19:00
237
Нет комментариев. Ваш будет первым!