Как Perplexity запускает Qwen на Blackwell и почему большие модели всё сильнее зависят от архитектуры стойки

Perplexity показала, как размещает дообученные модели Qwen3 235B на стойках NVIDIA GB200 NVL72 с ускорителями Blackwell. Материал важен не как рассказ о «ещё более мощном железе», а как разбор реальной экономики вывода больших моделей: где упираются вычисления, где сеть, где память, и почему архитектура стойки начинает влиять на стоимость ответа.
Как Perplexity запускает Qwen на Blackwell и почему большие модели всё сильнее зависят от архитектуры стойки

Большие модели стали задачей уровня стойки

Perplexity описала инфраструктуру для обслуживания дообученных моделей Qwen3 235B, которые обрабатывают часть трафика сервиса. Компания использует стойки NVIDIA GB200 NVL72: 18 узлов, 36 процессоров Grace и 72 ускорителя Blackwell, объединённых через NVLink. У каждого ускорителя 180 ГБ памяти HBM, а связь между любыми двумя устройствами внутри стойки заявлена на уровне 1800 ГБ/с.

Главный вывод Perplexity - простой по содержанию, но дорогой в исполнении: для больших моделей уже мало «поставить больше видеокарт». Нужно так разложить модель, кэш и запросы, чтобы ускорители не простаивали в ожидании данных. В инференсе стоимость часто утекает не в сами вычисления, а в пересылку промежуточных данных между устройствами.

NVIDIA позиционирует GB200 NVL72 как стойку с 72 ускорителями в одном домене NVLink. Для моделей со смесью экспертов такая архитектура особенно заметна: разные части модели могут жить на разных ускорителях, а токены в процессе генерации постоянно попадают к разным «экспертам». Чем быстрее связь внутри стойки, тем меньше штраф за такое распределение.

Почему Perplexity выбрала Qwen3 235B

Qwen3 235B относится к моделям со смесью экспертов. В такой схеме у модели есть много специализированных блоков, но для каждого токена активируется только часть из них. У Qwen3-235B-A22B всего 235 млрд параметров, а в одном шаге задействуется около 22 млрд активных параметров. В техническом описании Qwen указаны 128 экспертов и 8 активируемых экспертов на токен.

Для сервиса вроде Perplexity это практичный компромисс. Модель остаётся крупной по общей ёмкости, но каждый запрос не обязан прогонять все параметры подряд. Экономия появляется только при хорошо настроенной подаче запросов: если маршрутизация токенов, память и сеть работают плохо, смесь экспертов превращается в сложную и дорогую схему с непредсказуемыми задержками.

Здесь и начинается реальная инженерия. Perplexity не просто взяла открытые веса и запустила их на новом оборудовании. Компания пишет, что дообучала Qwen и адаптировала собственный движок вывода под Blackwell, тензорные ядра, NVLink и внутренние способы разделения модели.

Заполнение контекста и генерация разделены на разные этапы

Perplexity разделяет обслуживание запроса на два типа узлов: одни занимаются заполнением контекста, другие генерируют ответ по одному токену. Заполнение контекста - это этап, где модель обрабатывает входной текст пользователя и строит кэш ключей и значений. Этот кэш хранит промежуточные данные внимания, чтобы модель не пересчитывала весь контекст на каждом шаге.

Генерация устроена иначе. После подготовки контекста модель выдаёт токены последовательно, и каждый новый токен зависит от предыдущих. На этом этапе вычислений меньше, но резко возрастает роль памяти: нужно быстро читать веса модели и работать с кэшем.

Perplexity использует разные стратегии разделения модели для этих этапов. Для заполнения контекста компания применяет тензорное и экспертное разделение на 4 ускорителя внутри одного узла. Для генерации тензорное разделение становится менее выгодным, поэтому компания делает ставку на разделение данных и экспертов. Такой выбор показывает важную деталь: одна и та же модель внутри одного сервиса может требовать разных схем размещения в зависимости от этапа обработки запроса.

Сильная сторона Blackwell в этой истории - большой домен NVLink. Раньше многие схемы упирались в границу одного узла на 8 ускорителей. Если нужно было выходить за пределы узла, задержки и пропускная способность внешней сети быстро съедали выигрыш от дополнительного железа.

В GB200 NVL72 Perplexity может масштабировать часть операций внутри стойки, не переходя на более медленную связь между стойками. Для смеси экспертов это особенно полезно: токены нужно отправлять к нужным экспертам, затем собирать результаты обратно. В публикации компания отдельно описывает операции распределения и объединения токенов, а также собственные ядра для обмена данными через NVLink.

Редакционно здесь важен не сам факт «быстрее Hopper». Это ожидаемо для нового поколения ускорителей. Интереснее другое: Perplexity показывает, что выигрыш Blackwell раскрывается только после переписывания низкоуровневых частей системы. Новое железо само по себе не делает инференс дешёвым. Экономия появляется после настройки маршрутизации, квантизации, разделения модели и обмена данными.

Квантизация снижает цену, но не без потерь

Perplexity развернула Qwen3 235B с квантизацией MXFP8. Квантизация уменьшает точность хранения чисел, чтобы модель занимала меньше памяти и быстрее считалась. Для пользователя это выглядит как техническая мелочь, но для сервиса с большим трафиком такая мелочь напрямую влияет на цену ответа.

Blackwell поддерживает новые 8-битные и 4-битные форматы. Perplexity пишет, что рассматривала MXFP4 и NVFP4, но влияние на качество без специального обучения под квантизацию оказалось слишком заметным для первого перехода с Hopper на Blackwell. Это полезная оговорка: индустрия любит говорить о 4-битных форматах как о почти бесплатной экономии, хотя на практике качество модели может просесть сильнее, чем допустимо для поискового продукта.

Выбор MXFP8 выглядит осторожнее. Компания получает прирост производительности, но не пытается продавить самый агрессивный режим сжатия любой ценой. Для пользовательского сервиса это разумная позиция: небольшая экономия на железе плохо окупается, если ответы становятся менее точными.

Производительность зависит от формы запроса

Perplexity отдельно показывает, что этап заполнения контекста и этап генерации масштабируются по-разному. При длинном вводе заполнение контекста насыщает вычислительные блоки: много токенов можно обрабатывать сразу. При генерации нагрузка часто ограничена памятью и задержками, потому что токены выходят последовательно.

Из-за этого оптимизация инференса всё меньше похожа на одну большую настройку «ускорить модель». Сервису нужно следить за длиной входных запросов, размером пакета, числом одновременных запросов на декодер, скоростью передачи кэша и допустимой задержкой генерации. Если баланс нарушен, часть стойки простаивает, а пользователь видит медленный ответ.

Perplexity использует и спекулятивную генерацию: вспомогательные слои предлагают черновые токены, а основная модель проверяет их. Если черновик часто принимается, итоговая скорость растёт. Эта техника уже применялась компанией на Hopper, и, по словам Perplexity, реализацию удалось во многом перенести на Blackwell.

Что эта публикация говорит о рынке ИИ-инфраструктуры

Публикация Perplexity показывает сдвиг от «модель как файл весов» к «модель как распределённая производственная система». Открытые веса Qwen важны, но в реальном продукте ценность создаётся вокруг них: дообучение, движок вывода, кэширование, квантизация, сетевые ядра, подбор схемы разделения и управление очередями.

Для рынка это неприятная новость в хорошем смысле. Крупные открытые модели действительно снижают зависимость от закрытых API, но не отменяют инфраструктурный барьер. Запустить Qwen3 235B локально и обслуживать значимый пользовательский трафик - разные задачи. Вторая требует дорогого оборудования и команды, которая умеет работать на уровне памяти, сети и вычислительных ядер.

Для пользователей итог менее драматичный: такие оптимизации должны дать больше трафика за меньшие деньги без видимой потери качества. Для индустрии критерий жёстче. Побеждать будут не те, кто громче объявит о новой модели, а те, кто дешевле и стабильнее довезёт её до каждого ответа.

18:23
466
Нет комментариев. Ваш будет первым!