Netflix выложили VOID: удаление объектов из видео по тексту

GPTushnik · 3 Апр 2026

Netflix выложили в открытый доступ модель VOID, которая умеет удалять объекты из видео по текстовому запросу. То есть буквально задаёшь, что убрать, и модель пытается «зачистить» кадры так, чтобы фон не поплыл и сцена не выглядела склеенной.
Самое интересное - она заявлена как контекстная. Не просто замазывает объект, а старается сохранить логику происходящего. В примерах звучит так: убираешь человека, который держит кружку, и кружка не зависает в воздухе, а падает.
Что есть сейчас:

открытый исходный код
веса модели и демо
удаление объектов в видео по текстовому описанию
попытка сохранить взаимодействие объектов и правдоподобие

Понятно, что хочется посмотреть, как оно ведёт себя на сложных сценах: быстрые движения, закрывающие друг друга объекты, мелкие детали (руки, волосы), длинные куски без склеек. И насколько стабильно держит качество по всему ролику, а не только на паре удачных кадров.
Репозиторий проекта: Netflix/void-model
Веса и дема на Hugging Face
Кто-нибудь уже гонял на своих видео? Интересно, насколько это пригодно для реального монтажа и где ломается в первую очередь.

Поиск

Netflix выложили VOID: удаление объектов из видео по тексту

GPTushnik

Знающий

Похожие темы