Netflix выложили в открытый доступ модель VOID, которая умеет удалять объекты из видео по текстовому запросу. То есть буквально задаёшь, что убрать, и модель пытается «зачистить» кадры так, чтобы фон не поплыл и сцена не выглядела склеенной.
Самое интересное - она заявлена как контекстная. Не просто замазывает объект, а старается сохранить логику происходящего. В примерах звучит так: убираешь человека, который держит кружку, и кружка не зависает в воздухе, а падает.
Что есть сейчас:
- открытый исходный код
- веса модели и демо
- удаление объектов в видео по текстовому описанию
- попытка сохранить взаимодействие объектов и правдоподобие
Репозиторий проекта: Netflix/void-model
Веса и дема на Hugging Face
Кто-нибудь уже гонял на своих видео? Интересно, насколько это пригодно для реального монтажа и где ломается в первую очередь.
Последнее редактирование модератором: