Первые впечатления от OpenAI o1: ИИ, созданный для глубоких размышлений

OpenAI выпустила свои новые модели o1 в четверг, предоставив пользователям ChatGPT первую возможность опробовать ИИ, который «думает» перед тем, как ответить. Вокруг этих моделей, получивших кодовое название «Strawberry» внутри OpenAI, было много шума. Но оправдывает ли Strawberry ожидания?

Отчасти да.

По сравнению с GPT-4o, модели o1 кажутся шагом вперед и двумя шагами назад. OpenAI o1 превосходит предшественника в рассуждениях и ответах на сложные вопросы, но использование модели примерно в четыре раза дороже, чем GPT-4o. Последней модели OpenAI не хватает инструментов, мультимодальных возможностей и скорости, которые сделали GPT-4o столь впечатляющей. Фактически, OpenAI даже признает на своей странице помощи, что "GPT-4o по-прежнему остается лучшим вариантом для большинства запросов", и отмечает, что o1 испытывает трудности с более простыми задачами.

"Это впечатляет, но я думаю, что улучшение не очень значительное", - сказал Равид Шварц Зив, профессор Нью-Йоркского университета, изучающий модели ИИ. "Она лучше справляется с определенными задачами, но здесь нет повсеместного улучшения".

По всем этим причинам важно использовать o1 только для тех вопросов, для которых она действительно предназначена: больших и сложных. Стоит отметить, что большинство людей сегодня не используют генеративный ИИ для ответов на такие вопросы, в основном потому, что современные модели ИИ не очень хорошо с этим справляются. Однако o1 - это осторожный шаг в этом направлении.

Размышление над большими идеями

OpenAI o1 уникальна тем, что она "думает" перед тем, как ответить, разбивая большие проблемы на маленькие шаги и пытаясь определить, когда она правильно или неправильно выполняет один из этих шагов. Это "многоступенчатое рассуждение" не является полностью новым (исследователи предлагали его годами, а You.com использует его для сложных запросов), но до недавнего времени оно не было практичным.

"В сообществе ИИ царит большое волнение", - сказал в интервью Киан Катанфорош, генеральный директор Workera и адъюнкт-преподаватель Стэнфорда, который ведет курсы по машинному обучению. "Если вы можете обучить алгоритм обучения с подкреплением в сочетании с некоторыми методами языковой модели, которые есть у OpenAI, вы можете технически создать пошаговое мышление и позволить модели ИИ двигаться в обратном направлении от больших идей, которые вы пытаетесь проработать".

OpenAI o1 также уникально дорога. В большинстве моделей вы платите за входные и выходные токены. Однако o1 добавляет скрытый процесс (маленькие шаги, на которые модель разбивает большие проблемы), который добавляет большое количество вычислений, которые вы никогда полностью не видите. OpenAI скрывает некоторые детали этого процесса, чтобы сохранить свое конкурентное преимущество. Тем не менее, вам все равно приходится платить за это в виде "токенов рассуждения". Это еще раз подчеркивает, почему нужно быть осторожным при использовании OpenAI o1, чтобы не получить огромный счет за токены за вопрос о том, где находится столица Невады.

Тем не менее, идея модели ИИ, которая помогает вам "двигаться в обратном направлении от больших идей", очень мощная. На практике модель довольно хорошо с этим справляется.

В одном из примеров я попросил ChatGPT o1 preview помочь моей семье спланировать День благодарения - задачу, которая могла бы выиграть от небольшой беспристрастной логики и рассуждений. В частности, я хотел помощи в определении, будет ли двух духовок достаточно для приготовления ужина на День благодарения для 11 человек, и хотел обсудить, стоит ли рассмотреть возможность аренды Airbnb для получения доступа к третьей духовке.

После 12 секунд "размышлений" ChatGPT написал мне ответ объемом более 750 слов, в котором в конечном итоге говорилось, что двух духовок должно быть достаточно при тщательном планировании, и это позволит моей семье сэкономить на расходах и провести больше времени вместе. Но модель разложила свои мысли для меня на каждом этапе и объяснила, как она учитывала все эти внешние факторы, включая затраты, семейное время и управление духовками.

ChatGPT o1 preview рассказал мне, как распределить пространство в духовках в доме, где проходит мероприятие, что было умно. Странно, но она предложила рассмотреть возможность аренды переносной духовки на день. Тем не менее, модель работала намного лучше, чем GPT-4o, которая требовала нескольких дополнительных вопросов о том, какие именно блюда я собираюсь приготовить, а затем давала мне минимальные советы, которые я нашел менее полезными.

Вопрос о ужине в День благодарения может показаться глупым, но вы можете представить, насколько полезным этот инструмент мог бы быть для разбора сложных задач.

Я также попросил o1 помочь мне спланировать напряженный рабочий день, когда мне нужно было перемещаться между аэропортом, несколькими личными встречами в разных местах и моим офисом. Она дала мне очень подробный план, но, возможно, это было немного чересчур. Иногда все эти дополнительные шаги могут быть немного overwhelming.

Для более простого вопроса o1 делает слишком много - она не знает, когда прекратить overthinking. Я спросил, где можно найти кедровые деревья в Америке, и она выдала ответ объемом более 800 слов, описывая каждую разновидность кедрового дерева в стране, включая их научные названия. В какой-то момент она даже обратилась к политикам OpenAI, по какой-то причине. GPT-4o гораздо лучше справилась с этим вопросом, выдав мне примерно три предложения, объясняющие, что эти деревья можно найти по всей стране.

Умеряя ожидания

В некотором смысле Strawberry никогда не смогла бы оправдать ожидания. Сообщения о моделях рассуждений OpenAI датируются ноябрем 2023 года, как раз в то время, когда все искали ответ на вопрос, почему совет директоров OpenAI уволил Сэма Альтмана. Это запустило слухи в мире ИИ, заставив некоторых предположить, что Strawberry является формой AGI - просвещенной версии ИИ, которую OpenAI стремится в конечном итоге создать.

Альтман подтвердил, что o1 не является AGI, чтобы развеять все сомнения, хотя вы бы не были в этом уверены после использования этой штуки. Генеральный директор также умерил ожидания от этого запуска, написав в твиттере, что "o1 все еще несовершенна, все еще ограничена, и она все еще кажется более впечатляющей при первом использовании, чем после того, как вы проведете с ней больше времени".

Остальной мир ИИ смиряется с менее захватывающим запуском, чем ожидалось.

"Ажиотаж как бы вышел из-под контроля OpenAI", - сказал Рохан Пандей, исследователь-инженер из стартапа AI ReWorkd, который создает веб-скрапперы с использованием моделей OpenAI.

Он надеется, что способность o1 к рассуждениям достаточно хороша для решения узкого набора сложных проблем, в которых GPT-4 не справляется. Вероятно, именно так большинство людей в отрасли смотрят на o1, но не совсем как на революционный шаг вперед, который GPT-4 представляла для отрасли.

"Все ждут ступенчатого изменения возможностей, и неясно, представляет ли это такое изменение. Я думаю, все так просто", - сказал генеральный директор Brightwave Майк Коновер, который ранее участвовал в создании модели AI Dolly от Databricks, в интервью.

В чем ценность?

Основные принципы, использованные для создания o1, уходят корнями в прошлое на годы. Google использовала аналогичные методы в 2016 году для создания AlphaGo, первой системы ИИ, победившей чемпиона мира по настольной игре Го, как отмечает бывший сотрудник Google и генеральный директор венчурной фирмы S32 Энди Харрисон. AlphaGo тренировалась, играя против себя бесчисленное количество раз, по сути, самообучаясь, пока не достигла сверхчеловеческих способностей.

Он отмечает, что это вызывает давние дебаты в мире ИИ.

"Лагерь один считает, что вы можете автоматизировать рабочие процессы с помощью этого агентного процесса. Лагерь два считает, что если бы у вас был обобщенный интеллект и рассуждение, вам бы не нужен был рабочий процесс, и, как человек, ИИ просто принимал бы решение",
- сказал Харрисон в интервью.

Харрисон говорит, что он в первом лагере, и что второй лагерь требует, чтобы вы доверяли ИИ принимать правильное решение. Он не думает, что мы уже там.

Однако другие рассматривают o1 не столько как принимающую решения, сколько как инструмент для проверки вашего мышления по поводу больших решений.

Катанфорош, генеральный директор Workera, описал пример, когда он собирался провести собеседование с дата-сайентистом для работы в его компании. Он говорит OpenAI o1, что у него есть только 30 минут, и он хочет оценить определенное количество навыков. Он может работать в обратном направлении с моделью ИИ, чтобы понять, правильно ли он об этом думает, и o1 будет понимать временные ограничения и тому подобное.

Вопрос в том, стоит ли этот полезный инструмент такой высокой цены. Поскольку модели ИИ продолжают дешеветь, o1 - одна из первых моделей ИИ за долгое время, которая стала дороже.

Англоязычный источник

openai strawberry chatgpt