OpenAI представила CriticGPT новую модель для выявления ошибок в коде ChatGPT

OpenAI представила модель CriticGPT, основанную на GPT-4, для выявления ошибок в коде, генерируемом ChatGPT. Эта модель создана в помощь специалистам, оценивающим качество ИИ (тренерам), в процессе обучения с обратной связью от людей (RLHF), позволяя им более эффективно обнаруживать и исправлять ошибки.
OpenAI представила CriticGPT новую модель для выявления ошибок в коде ChatGPT

На прошлой неделе OpenAI объявила о запуске CriticGPT, модели, которая помогает выявлять ошибки в ответах ChatGPT. В ходе тестов было установлено, что при использовании CriticGPT тренеры обнаруживают ошибки в 60% случаев лучше, чем без помощи этого инструмента. В будущем планируется интеграция CriticGPT в процесс маркировки RLHF, предоставляя тренерам дополнительную помощь.

Серия моделей GPT-4, которая является основой ChatGPT, ориентирована на то, чтобы быть полезной и интерактивной через "обучение с подкреплением от людей" (RLHF). Ключевой частью RLHF является сбор сравнений, в которых люди, называемые тренерами ИИ, оценивают различные ответы ChatGPT.

«По мере того, как мы совершенствуемся в рассуждениях и моделировании поведения бота, ChatGPT становится более точным, а его ошибки — более незаметными. Ошибки такого рода сложнее выявлять. Для выполнения этой задачи и нужен CriticGPT. Мы научили его писать замечания, подчёркивающие неточности в ответах ChatGPT», — сообщают в OpenAI.

Предложения CriticGPT не всегда верны, но мы обнаружили, что они могут помочь тренерам выявить гораздо больше проблем с помощью ответов, написанных по модели, чем без помощи ИИ. Кроме того, когда люди используют CriticGPT, ИИ расширяет их навыки, что приводит к более полной критике, чем когда люди работают в одиночку, и меньшему количеству галлюцинаторных ошибок, чем когда модель работает в одиночку. В наших экспериментах второй случайный тренер более чем в 60% случаев предпочитал критику от команды Human+CriticGPT критике от человека без посторонней помощи.

тесты

CriticGPT помогает тренерам писать более полные критические замечания, чем без помощи, и производит меньше ложных замечаний, чем критика только от модели.

Преимущества

CriticGPT, как и ChatGPT, обучался с использованием RLHF, но на данных с намеренно внесенными ошибками. Тренеры вставляли ошибки в код ChatGPT и писали критические отзывы. Эксперименты показали, что CriticGPT эффективно обнаруживает как искусственные, так и естественные ошибки. Тренеры предпочитают критику CriticGPT в 63% случаев для естественных ошибок, так как она содержит меньше незначительных замечаний и ложных ошибок.

Исследователи разработали метод улучшения работы CriticGPT. Они используют специальный алгоритм поиска, который позволяет настраивать, насколько тщательно модель анализирует код.

Этот метод дает возможность найти баланс между двумя важными факторами:

  1. Количеством обнаруженных реальных ошибок
  2. Количеством ложных замечаний (когда модель думает, что нашла ошибку, но ее на самом деле нет)

Благодаря этому можно создавать более подробные и точные критические замечания. Такой подход позволяет получить максимальную пользу от CriticGPT в процессе обучения с подкреплением на основе обратной связи от людей (RLHF).

Более детальную информацию об этом методе можно найти в полном исследовательском документе авторов.

Недостатки

  • Мы обучали CriticGPT на довольно коротких ответах ChatGPT. Чтобы контролировать агентов будущего, нам потребуется разработать методы, которые помогут тренерам понимать длинные и сложные задачи.
  • Модели все еще галлюцинируют, и иногда тренеры допускают ошибки в маркировке, увидев эти галлюцинации.
  • Иногда реальные ошибки могут быть разбросаны по многим частям ответа. Наша работа сосредоточена на ошибках, которые можно указать в одном месте, но в будущем нам нужно будет решать и разбросанные ошибки.
  • CriticGPT может помочь только в ограниченном объеме: если задача или ответ чрезвычайно сложны, даже эксперт с помощью модели не сможет правильно оценить их.

Несмотря на эти ограничения, разработка CriticGPT открывает новые горизонты в области обучения и совершенствования ИИ-систем. OpenAI планирует дальнейшее развитие этой технологии и ее практическое применение, что может привести к созданию более точных, надежных и этичных ИИ-моделей в будущем.

01:51
153
OpenAI
OpenAI — это исследовательская компания в области искусственного интеллекта (ИИ), основанная в декабре 2015 года. Целью компании является продвижение и разработка дружелюбного ИИ в интересах всего человечества.
Нет комментариев. Ваш будет первым!
Посещая этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.