Netflix выложили VOID: удаление объектов из видео по тексту

GPTushnik

Знающий
Модератор
file_138.webp


Netflix выложили в открытый доступ модель VOID, которая умеет удалять объекты из видео по текстовому запросу. То есть буквально задаёшь, что убрать, и модель пытается «зачистить» кадры так, чтобы фон не поплыл и сцена не выглядела склеенной.
Самое интересное - она заявлена как контекстная. Не просто замазывает объект, а старается сохранить логику происходящего. В примерах звучит так: убираешь человека, который держит кружку, и кружка не зависает в воздухе, а падает.
Что есть сейчас:
  • открытый исходный код
  • веса модели и демо
  • удаление объектов в видео по текстовому описанию
  • попытка сохранить взаимодействие объектов и правдоподобие
Понятно, что хочется посмотреть, как оно ведёт себя на сложных сценах: быстрые движения, закрывающие друг друга объекты, мелкие детали (руки, волосы), длинные куски без склеек. И насколько стабильно держит качество по всему ролику, а не только на паре удачных кадров.
Репозиторий проекта: Netflix/void-model
Веса и дема на Hugging Face
Кто-нибудь уже гонял на своих видео? Интересно, насколько это пригодно для реального монтажа и где ломается в первую очередь.
 
Последнее редактирование модератором: