VOID

Знакомство с VOID
VOID расшифровывается как Video Object and Interaction Deletion. Модель разработана Netflix Research совместно с INSAIT и опубликована как исследовательский open-source проект для удаления объектов из видео. Авторы прямо отделяют её от обычного video inpainting: задача VOID - убрать объект и пересобрать сцену так, чтобы физика кадра выглядела правдоподобно.
В обычном удалении объекта модель чаще всего дорисовывает фон за ним. Этого хватает для простых кадров, но ломается на сценах, где объект влияет на окружение: толкает предмет, удерживает вещь, меняет траекторию движения, даёт тень или отражается в поверхности. VOID пытается учитывать причинно-следственные связи, а не только закрывать «дырку» в изображении.
Quadmask показывает модели, что именно должно измениться
Главный технический приём VOID - quadmask, маска с четырьмя значениями. Она разделяет область удаляемого объекта, зоны пересечения, физически затронутые части сцены и фон, который нужно сохранить без изменений. Такой формат помогает модели понять, где нужно удалить пиксели, а где пересобрать поведение сцены после удаления объекта.
На практике это выглядит так: пользователь выбирает объект для удаления, затем VLM-пайплайн анализирует сцену и определяет области, которые тоже зависят от этого объекта. В GitHub-репозитории указано, что quadmask можно генерировать через связку SAM2/SAM3 и Gemini, а затем при необходимости вручную править маску в отдельном редакторе.
Два прохода для сложных видео
VOID использует два чекпоинта. Pass 1 отвечает за базовый video inpainting и подходит для большинства клипов. Pass 2 добавляет refinement через optical flow-warped noise: второй проход помогает стабилизировать форму объектов и улучшить временную согласованность на длинных или сложных фрагментах.
Это важная деталь для видео. В статичном изображении артефакт можно спрятать в одном кадре, а в ролике он начинает «плыть» между кадрами. VOID не снимает проблему полностью, но показывает, что авторы понимают слабое место video inpainting: результат должен держаться во времени, а не выглядеть хорошо только на одном стоп-кадре.
CogVideoX как основа модели
VOID построен на CogVideoX-Fun-V1.5-5B-InP и дообучен для video inpainting с interaction-aware quadmask conditioning. В карточке Hugging Face указаны 5B-параметрический CogVideoX 3D Transformer, вход в виде видео, quadmask и текстового описания сцены после удаления объекта. Дефолтное разрешение - 384×672, максимальная длина - 197 кадров.
Текстовый prompt в VOID описывает не удаление, а итоговую сцену после удаления. В README приведён пример: вместо описания «человек удаляется из сцены» нужно описать чистый фон или новое состояние объектов. Это делает работу ближе к режиссуре результата: пользователь задаёт, как сцена должна выглядеть после вмешательства.
Запуск пока рассчитан на техническую аудиторию
VOID нельзя назвать consumer-инструментом. Быстрый старт идёт через notebook, GitHub-репозиторий или Hugging Face, а для запуска рекомендуется GPU с 40+ GB VRAM, например A100. Это сразу ограничивает аудиторию: модель интересна VFX-командам, исследователям, энтузиастам ComfyUI и тем, кто готов запускать тяжёлые video pipeline в облаке.
Установка тоже не выглядит простой: нужны чекпоинты VOID, базовая модель CogVideoX-Fun-V1.5-5B-InP, зависимости из requirements, ffmpeg, маски и корректная структура папок. Для генерации quadmask могут понадобиться SAM2/SAM3 и Google AI API key для Gemini. Это сильный research-релиз, но не «кнопка удалить объект» для обычного монтажёра.
ComfyUI снижает порог входа
ComfyUI добавил нативную поддержку VOID вместе с готовыми workflow. В блоге ComfyUI модель описана как video inpainting, который удаляет объект, тени, отражения и вызванные им физические взаимодействия. Для запуска через ComfyUI нужно обновить платформу, скачать пакет модели, подготовить видео, quadmask и prompt с описанием сцены после удаления.
Интеграция в ComfyUI важна сильнее, чем кажется. Сам по себе GitHub-репозиторий останется инструментом для технической аудитории, а workflow внутри ComfyUI превращает VOID в часть визуальной цепочки: сегментация, маска, удаление объекта, refinement и дальнейшая обработка видео могут жить в одном графе.
Где VOID полезен
VOID лучше всего подходит для задач, где удаляемый объект влияет на окружение. Это может быть человек, который держит предмет, объект, запускающий движение других объектов, источник тени или элемент, отражающийся в поверхности. В таких сценах обычное «замазывание» быстро выдаёт монтаж.
Практические сценарии:
- удаление людей и предметов из сложных видеосцен;
- cleanup для VFX и post-production;
- подготовка AI-video кадров перед дальнейшей генерацией;
- эксперименты с причинным редактированием видео;
- исследовательские задачи в computer vision;
- ComfyUI workflow для видеоинпейнтинга.
Где модель будет ошибаться
Главное ограничение VOID - сложность входных данных. Если объект закрывает большую часть кадра, сцена плохо читается, маска неточная или движение камеры слишком резкое, модель может ошибаться в восстановлении. Второй проход помогает со стабильностью, но не превращает сложный ролик в гарантированно чистый результат.
Ещё одно ограничение - управляемость. VOID требует не только видео, но и корректной quadmask-разметки, а также описания сцены после удаления. Это даёт больше контроля, но повышает требования к пользователю. Для качественного результата придётся думать как монтажёр и как оператор пайплайна одновременно.
Плюсы
- удаляет не только объект, но и вызванные им эффекты;
- учитывает тени, отражения и физические взаимодействия;
- опубликована как open-source модель с Apache-2.0 license;
- есть GitHub, Hugging Face, demo и project page;
- поддерживает двухпроходную обработку;
- уже появилась в ComfyUI workflow.
Минусы
- нужен мощный GPU, в документации указан 40+ GB VRAM;
- запуск технически сложный;
- публичный API не заявлен;
- качество зависит от quadmask и prompt;
- разрешение и длина ролика ограничены дефолтными параметрами;
- это research-инструмент, а не готовый consumer-сервис.
Советы по работе
Для первых тестов лучше брать короткие клипы с понятным движением и одним главным объектом. Так проще проверить, насколько модель понимает взаимодействие, а не бороться сразу с шумом камеры, большим количеством объектов и сложным светом.
Prompt должен описывать состояние сцены после удаления. Если человек держит предмет, нужно думать не о том, кого убрать, а о том, что должно остаться и как должны вести себя другие объекты. В VOID это часть управления результатом, а не косметическая подпись к видео.
Маску лучше проверять до полного рендера. Если quadmask плохо выделяет affected regions, модель может аккуратно удалить объект, но оставить неверное движение рядом. Для VOID качество маски - половина результата.
Разработчик
VOID разработали Saman Motamed, William Harvey, Benjamin Klein, Luc Van Gool, Zhuoning Yuan и Ta-Ying Cheng. В проекте указаны Netflix и INSAIT, Sofia University “St. Kliment Ohridski”. Paper был отправлен на arXiv 2 апреля 2026 года.
Кому стоит попробовать VOID
VOID стоит попробовать тем, кто работает с AI-видео, VFX, ComfyUI и исследовательскими video-editing пайплайнами. Модель особенно интересна для задач, где объект нельзя просто стереть: нужно пересобрать поведение сцены после его исчезновения.
Для массового пользователя VOID пока слишком технический. Главная ценность релиза - не удобный интерфейс, а новый уровень задачи для open-source video inpainting: модель пытается редактировать причинные связи в кадре, а не только пиксели.
| Возможности сервиса | |
|---|---|
| Нужен VPN | Нет |
| Русский язык | Нет |
| Русский интерфейс | Нет |
| Платформа | |