![]()
Netflix搞了個新工具,能讓你像PS里的橡皮擦一樣刪掉視頻里的物體。但和PS不一樣的是,它連物體撞倒的椅子、濺起的水花都能自動補全。
這套系統叫VOID,全稱"Video Object and Interaction Deletion"。開源協議是Apache 2.0,意味著你能直接拿去商用。代碼、論文、演示Demo全掛在GitHub、arXiv和Hugging Face上,沒有門檻。
不是簡單的"抹掉",是"善后"
視頻去物這件事,行業里早有人在做。Adobe的內容感知填充、Runway的修復工具,都能把不想要的元素P掉。但它們的問題是:物體沒了,物體造成的痕跡還在。
VOID的解法是把物理引擎塞進AI里。刪掉一個人之后,系統會重新計算光影、碰撞痕跡、流體擾動這些下游效應。Netflix研究團隊的演示里,一個滾動的球被抹掉,球撞歪的積木會自動歸位,連地面上的陰影都重新渲染。
這相當于給視頻做了一個"假設該物體從未存在過"的平行宇宙。
技術棧堆得很高:底層是阿里開源的CogVideoX視頻擴散模型,用Google的Kubric和Adobe的HUMOTO合成數據做微調。場景理解交給Google Gemini 3 Pro,物體分割用Meta的SAM2。最后還有一層光流修正,處理形狀扭曲。
項目由Netflix研究院和保加利亞INSAI Sofia大學合作完成。學術機構+流媒體巨頭的組合,在開源社區里不算多見。
為什么Netflix要開源這個?
一個做內容的平臺,把自己研發的AI工具免費放出來,看起來像是做慈善。但細想一下,Netflix的痛點很具體。
影視后期里,"清場"是高頻需求。路人甲誤入鏡頭、品牌logo需要抹掉、演員檔期沖突需要換臉——這些以前靠人工一幀一幀修,燒錢又燒人。VOID能把這部分成本壓到接近零。
開源之后,社區會幫它跑通更多場景、修更多bug。Apache 2.0協議留了后門:你可以商用,但改過的版本也得開源。Netflix相當于用代碼換生態,用生態換標準。
這和當年Google開源Android的邏輯一模一樣:先讓所有人用上,再讓所有人離不開。
另一個層面,視頻生成模型正在軍備競賽。OpenAI的Sora、快手的可靈、阿里的通義萬相,都在搶"文生視頻"的定義權。VOID選擇從"視頻編輯"切入,避開了正面戰場,卻切中了真實需求——沒人能保證生成的視頻一次到位,但所有人都需要修改工具。
誰會用?誰該警惕?
第一批用戶已經排隊了。獨立 filmmaker 能用VOID清掉穿幫鏡頭,省掉后期團隊的開支。新聞機構可以抹掉敏感畫面里的身份信息。短視頻創作者終于不用為背景里亂入的垃圾桶重拍一條。
但風險也很明顯。Gemini 3 Pro負責理解場景,意味著系統對"什么該刪、什么該留"有一套自己的判斷。如果訓練數據有偏見,某些人群可能被系統性地"優化"掉。物理引擎的自動補全,也可能生成看似合理、實則違背事實的畫面。
Netflix在論文里提到了這些局限,但沒有給出技術層面的約束方案。開源社區的慣例是:工具給你,怎么用是你的事。
目前VOID的GitHub倉庫已經收獲四位數star。Hugging Face上的Demo允許上傳10秒以內的視頻,處理時間約2-3分鐘。有用戶測試后發現,快速移動的物體、復雜遮擋場景仍是盲區,但靜態背景下的刪除效果已經接近可用。
Netflix研究院的人在社交媒體上回復了一條評論:「我們最初只是想解決自家劇集的后期問題,沒想到物理補全比物體刪除難了一個數量級。」
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.