ComfyUI добавил поддержку VOID, BiRefNet и Gemma 4

ComfyUI получил нативную поддержку трёх новых open-source моделей: VOID от Netflix, BiRefNet для сегментации и Gemma 4 от Google DeepMind. Обновление интересно тем, что закрывает сразу три разных сценария: удаление объектов из видео, точные маски для изображений и мультимодальную работу с текстом, картинками, аудио и видео.
ComfyUI добавил поддержку VOID, BiRefNet и Gemma 4

ComfyUI добавил нативную поддержку трёх open-source моделей: VOID, BiRefNet и Gemma 4. Это не один крупный релиз, а скорее показательный срез того, куда движется экосистема: ComfyUI всё чаще становится местом, где новые модели быстро превращаются в готовые workflow, а не остаются отдельными репозиториями для ручной сборки.

VOID удаляет из видео объект и его следы в сцене

Самая заметная часть обновления - VOID от Netflix. Это модель для video inpainting: она удаляет объект из видео и старается убрать связанные с ним следы в кадре, включая тени, отражения и физические взаимодействия со сценой. Для очистки видео это критично: обычное удаление объекта часто оставляет «призрак» в виде тени, блика или нарушенного движения рядом.

VOID удаляет следы и объекты

VOID использует quadmask - маску с четырьмя значениями вместо обычной бинарной маски. Такая разметка помогает модели отличать сам удаляемый объект, пересечения, затронутые области и части сцены, которые нужно оставить без изменений. В ComfyUI также указано, что для более сложных роликов предусмотрен второй проход с уточнением через optical flow для лучшей временной согласованности.

BiRefNet нужен для точных масок без ручной возни

BiRefNet закрывает более приземлённую, но очень частую задачу: сегментацию объектов и фона в высоком разрешении. Модель умеет вытаскивать чистые маски из сложных изображений, включая волосы, мех и полупрозрачные поверхности. Для пользователей ComfyUI это практичный блок: хорошая маска часто решает больше, чем очередной «магический» промпт.

маска и отделённый объект

Пример сегментации человека: исходное изображение, маска и отделённый объект.

В блоге ComfyUI BiRefNet описан как одна из широко используемых баз сегментации в open-source workflow. Модель также подходит для salient object detection и camouflaged object detection, то есть может работать не только с очевидным отделением объекта от фона, но и с более сложными сценами.

BiRefNet справляется с мелкими деталями

BiRefNet справляется с мелкими деталями вроде нитей, бахромы и сложного края объекта.

Gemma 4 добавляет мультимодальный reasoning в workflow

Gemma 4 от Google DeepMind появилась в ComfyUI как мультимодальная модель с поддержкой текста, изображений, аудио и видео. В workflow она используется через TextGenerate node, а среди доступных вариантов указаны E2B и E4B - более лёгкие версии для потребительских GPU. Более крупные варианты, 26B A4B Mixture-of-Experts и 31B dense, доступны через официальный релиз Google.

мультимодальный reasoning Gemma 4

Для ComfyUI это важнее, чем просто «ещё одна LLM». Мультимодальная модель внутри node-based workflow может разбирать изображение, описывать сцену, помогать с инструкциями и участвовать в цепочках генерации. Слабое место пока очевидное: качество таких сценариев будет зависеть не только от модели, но и от того, насколько аккуратно собран сам workflow.

Главное в этом обновлении - готовые workflow

ComfyUI делает акцент на том, что для всех трёх моделей доступны workflow и запуск через Comfy Cloud. Это снижает порог входа: пользователю не нужно вручную собирать все узлы, искать правильные папки и проверять совместимость. Для локальной установки всё равно остаётся привычная часть с загрузкой моделей в нужные директории.

Обновление хорошо показывает текущую силу ComfyUI: платформа быстро подхватывает новые open-source модели и даёт им место в визуальной цепочке. Для обычного пользователя ценность будет не в списке названий, а в конкретных задачах: убрать объект из видео, получить чистую маску, подключить мультимодальную модель к генеративному процессу.

18:05
229
Нет комментариев. Ваш будет первым!