![]()
WorldForge:一種實現相機軌跡可控的視頻生成方法。
作者丨鄭佳美
編輯丨岑 峰
過去兩年,視頻生成的發展幾乎是指數級的。從最早只能生成模糊片段,到如今可以生成具有敘事結構、光影一致性甚至風格控制的長視頻,行業表面上已經接近一個階段性成熟。
但如果把評價標準從“能不能生成一段視頻”稍微提高到“能不能控制鏡頭”,問題就會完全暴露出來。當前大多數模型仍然停留在一種近似二維的生成范式中,它們擅長在時間上延續視覺模式,卻缺乏對空間結構的穩定建模能力。
一旦涉及視角變化,模型往往無法保證同一個物體在不同幀之間的幾何一致性,人物會發生細微但累積的漂移,建筑結構在移動中逐漸扭曲,遮擋關系也難以維持連續,這意味著模型生成的并不是一個被持續觀察的世界,而是一系列在視覺上相似但空間上不一致的結果。
在這樣的行業背景下,西湖大學 AGI Lab 研究團隊提出了論文《Taming Video Models for 3D and 4D Generation via Zero Shot Camera Control》。值得一提的是,這篇論文也入選了CVPR Highlight。與以往通過重新訓練模型來引入控制能力的路徑不同,這項工作將問題重新落回到推理階段本身,嘗試在不改變模型參數的情況下,讓相機軌跡成為生成過程中的約束條件,使模型在每一步生成中持續對齊同一個空間結構。
換句話說,這項研究關注的不是如何讓模型生成更多內容,而是如何讓模型在視角變化中保持世界的一致性,從而把視頻生成從二維視覺合成,推進到具有三維結構約束的動態世界建模。
如果從應用角度理解這一點,可以把它看成一種能力的轉變。過去模型更像一個能夠不斷畫出新畫面的系統,而現在的目標,是讓模型像一個可以移動的攝影機,在同一個場景中進行觀察和記錄。無論是商品展示、空間漫游,還是內容創作中的鏡頭設計,本質上都依賴這種能力的成立。
WorldForge 的提出,正是在這一關鍵轉折點上,給出了一個不依賴額外訓練、卻能夠實現精確相機控制的路徑,也因此成為當前視頻生成從“生成能力競爭”走向“空間一致性與可控性競爭”的一個代表性工作。
![]()
論文地址:https://arxiv.org/pdf/2509.15130
01
跨任務、多指標的統一性能提升
在實驗結果方面,研究團隊首先驗證了 3D 靜態場景生成,也就是單圖到多視角任務,相關數據來自 Table 1。從生成質量看,WorldForge 的 FID 為 96.08,是所有方法里最低的,CLIPsim 為 0.948,是所有方法里最高的。作為對比,TrajectoryCrafter 的 FID 為 111.49,CLIPsim 為 0.910,NVS-Solver 的 FID 為 118.64,CLIPsim 為 0.937。
這說明 WorldForge 在真實感和語義一致性上都更強,FID 從 118 下降到 96,降幅約 20%,CLIPsim 從 0.91 提升到 0.948,說明生成結果既更真實,又更符合原圖語義。
從軌跡精度也就是相機控制能力看,WorldForge 的 ATE 為 0.077,是最低值,RPE-T 為 0.086,RPE-R 為 0.221。對比來看,ViewCrafter 的 ATE 為 0.236,約為 WorldForge 的 3 倍,NVS-Solver 的 RPE-R 為 1.056,明顯高于 0.221,所以可以看出,相機路徑誤差被顯著壓低,整體大約達到 2 到 5 倍的改進。
在 4D 動態視頻生成任務中,也就是輸入視頻并重新指定軌跡的場景,相關數據來自 Table 2。從視頻質量看,WorldForge 的 FVD 為 93.17,是最低值,CLIP-Vsim 為 0.938,是最高值。
![]()
對比方法中,TrajectoryCrafter 的 FVD 為 97.31,ViewExtrapolator 的 FVD 為 108.48。也就是說,WorldForge 相比 108 降到 93,提升幅度約為 15%,說明在動態視頻生成中,畫面質量和語義一致性仍然保持領先。從軌跡精度看,WorldForge 的 ATE 為 0.527,RPE-T 為 0.826,RPE-R 為 2.690,而 ViewExtrapolator 的 ATE 為 1.040,幾乎是前者的兩倍,這說明在動態視頻條件下,WorldForge 依然能保持比較穩定的軌跡控制效果。
除了性能指標,研究人員還給出了實驗規模,這部分信息很重要。在 3D 任務中,實驗覆蓋 40 多個場景、70 多張單圖輸入,使用的數據集包括 LLFF、Tanks & Temples、MipNeRF 360,同時還加入了真實圖片和 AI 生成圖片。
![]()
在 4D 任務中,實驗覆蓋 30 多個視頻和 50 多個測試樣例,數據來源包括 DAVIS 數據集、電影片段以及 VDM 生成視頻。這樣的設置說明,測試范圍同時覆蓋真實世界數據和合成數據,泛化能力驗證相對充分。
研究團隊還說明了實驗條件。主模型使用 Wan2.1,規模為 14B,硬件方面需要至少 69GB 顯存的 GPU。生成階段采用 50 步采樣,其中 IRR 作用在前 20 步。這組條件說明,方法在效果上很強,但計算成本也比較高,對硬件資源有較高要求。
在消融實驗部分,相關數據來自 Table 3。完整模型表現最好,其中 FID 為 96.08,FVD 為 93.17。去掉 DSG 以后,FID 上升到 109.43,FVD 上升到 95.69,說明畫面質量和視頻質量都明顯變差。
去掉 FLF 以后,FID 進一步上升到 112.69,FVD 上升到 99.79,結果更差。把 DSG 和 FLF 一起去掉以后,FID 達到 113.12,FVD 達到 103.17,退化更加明顯。如果把 DSG 換成傳統 CFG,結果最差,FID 達到 120.91,FVD 達到 109.1。
綜合這些數字可以看到,每個模塊都會帶來大約 10% 到 20% 的性能提升,而且幾個模塊之間存在明顯的互補關系,少了任何一個,整體效果都會下降。
![]()
02
一套可遷移、可控制的生成流程
在實驗經過方面,研究團隊首先從模型設置入手驗證方法的通用性,一共選用了三個不同類型的視頻生成模型進行測試,分別是作為主實驗基礎模型的 Wan2.1,其規模為 14B,作為輕量級對照模型的 SVD,以及較新的 LongCat-Video 模型。
通過在這三類能力和結構差異明顯的模型上分別進行實驗,研究人員觀察方法在不同基礎能力條件下的表現變化,結果顯示方法可以直接遷移到不同視頻模型中使用,不依賴特定模型結構或訓練方式,因此具有明顯的模型無關性,也就是 model-agnostic 特征。
![]()
在推理流程參數方面,研究團隊對擴散生成過程進行了精細控制。整個視頻生成過程統一設置為 50 步采樣。在這一過程中,IRR 并不是在全部步驟中持續作用,而是集中作用在前 35% 到 45% 的階段,也就是大約前 15 到 25 步之間,在主實驗配置中通常為前 20 步。
這一階段主要負責建立整體結構和運動趨勢,因此通過 IRR 在這一階段持續注入軌跡信息,可以不斷修正生成方向,使結果逐步貼近目標相機路徑。
![]()
與此同時,FLF 在時間維度上也采用分階段策略,在最初的若干步中關閉 FLF,讓模型優先利用全部通道建立整體結構,避免過早限制信息流動而影響全局布局,隨后在中后期逐漸啟用 FLF,對通道進行篩選,僅對運動相關通道施加約束,從而在不破壞外觀細節的前提下加強軌跡控制。
這種安排體現出一種明顯的時間調度機制,也就是在不同生成階段分配不同控制強度,從而在結構穩定性與細節保真之間取得平衡。
![]()
在軌跡類型設計方面,研究團隊為了驗證方法的適用范圍,構建了多種不同形式的相機運動路徑進行測試,包括圓弧軌跡,也就是 arc,用于模擬圍繞目標的側向移動;推進軌跡,也就是 dolly,用于模擬鏡頭前進或后退;旋轉軌跡,也就是 orbit,用于實現環繞式觀察;以及自由探索路徑,用于測試復雜、不規則的相機運動。
這些軌跡不僅在幾何形式上存在差異,同時在運動幅度、視角變化范圍以及遮擋情況上也存在顯著不同。通過在這些多樣化軌跡條件下進行實驗,研究人員驗證方法不僅可以處理規則路徑,也可以應對復雜動態路徑,從而說明方法具備較強的泛化能力,而不是只對某一類預設運動模板有效。
![]()
在評價指標選擇方面,研究團隊結合任務特點進行了專門設計。對于單圖生成多視角的 3D 任務,由于輸入只有一張圖像,目標視角并不存在真實參考,也就是沒有 ground truth,因此無法使用依賴真實圖像對比的指標,例如 PSNR 這一類像素級誤差指標。
在這種情況下,研究人員選擇使用 FID 來衡量生成結果在分布層面與真實圖像的接近程度,同時使用 CLIP 相似度來評估生成內容在語義層面與輸入圖像的一致性。
對于 4D 動態視頻任務,則進一步引入 FVD 來衡量視頻整體質量,以及 CLIP-Vsim 來評估視頻語義一致性。這種指標體系體現出研究團隊對問題性質的理解,也就是把任務視為生成問題而不是重建問題,因此評價重點放在真實感、語義一致性以及時間連續性,而不是像素級還原精度。
03
從結果優化,到過程控制的一次轉向
在實驗意義方面,這項研究的價值不僅體現在指標提升上,更體現在它改變了視頻生成技術的發展方向。首先,從性能上看,研究結果不是只優化了某一個局部環節,而是在多個核心維度上同時取得提升。
FID 下降了 20%,FVD 下降了 15%,軌跡誤差降低了 2 到 5 倍,這說明研究團隊提出的方法既能讓畫面更真實,也能讓視頻更穩定,還能讓相機運動更準確。
換句話說,研究人員解決的不是單一的清晰度問題,也不是單一的控制問題,而是把生成質量、運動一致性和空間控制能力一起往前推進了一步,這種全面提升說明方法已經具備較強的實用潛力。
從方法意義上看,這項研究進一步說明,視頻生成未來的重要方向,很可能不是不斷重新訓練更大的模型,而是在推理過程中進行更精細的控制。研究人員通過實驗發現,傳統 CFG 在這一任務中會失敗,FID 會高到 120 以上,而使用 DSG 以后,FID 可以降到 96。
這說明過去那種主要面向圖像生成的控制思路,放到視頻任務里并不夠用,因為視頻不僅要生成單幀內容,還要保證前后幀銜接自然,人物和場景不能亂變,鏡頭運動也不能失控。也正因為如此,研究團隊提出的結構感知式控制方式才顯得更有意義,它證明視頻生成不能只靠簡單加條件,而是需要真正理解空間結構和運動關系。
從理論意義上看,這項研究還有一個很重要的貢獻,就是進一步證明了 latent 空間內部并不是混在一起、無法區分的。FLF 的實驗結果表明,不同通道確實承擔著不同功能,有些更偏向運動信息,有些更偏向外觀與細節信息。
從工程意義上看,這項研究也很誠實地揭示了當前技術所處的階段。方法雖然強,但成本也高,需要大約 70GB 顯存,還要進行多路徑推理,所以它更像是一種高質量離線渲染方案,而不是已經成熟到可以實時運行的輕量系統。
這一點其實也很有意義,因為它告訴人們,當前視頻生成技術已經能夠做出高質量結果,但距離真正低成本、實時化、大規模普及,還有一段工程化的路要走。也就是說,這項研究更像是在證明一件事可行,而不是已經把一件事做成人人隨手可用的產品。
如果進一步看這項研究對普通人的影響,意義會更直觀。對于普通用戶來說,這類技術未來最直接的變化,就是拍視頻和做視頻的門檻可能會繼續降低。以前想拍出鏡頭繞人移動、緩慢推進、自由換視角的效果,往往需要專業攝影設備、軌道、穩定器,甚至還要后期團隊處理。
沿著這項研究繼續發展,未來普通人只用一張圖或者一段普通視頻,就有可能生成更像電影鏡頭的畫面,旅游視頻、畢業紀念、短視頻創作、家庭影像記錄都會因此變得更容易、更豐富。
對于內容創作者來說,這種技術會進一步改變創作方式。很多人沒有專業拍攝條件,也不會復雜建模,但依然希望讓視頻看起來更有空間感、更有鏡頭語言。
這項研究說明,未來創作者可能只需要先拍一個基礎畫面,后續再通過生成式方法重新設計鏡頭軌跡,讓鏡頭前進、環繞、拉遠、探索場景,等于把部分攝影和后期能力交給了模型。這樣一來,個人創作者、小型工作室,甚至普通學生,都可能獲得過去只有專業團隊才能完成的視覺表達能力。
也就是說,這項研究雖然現在還主要停留在高成本實驗階段,但它指向的是一種更低門檻、更強表達力的視覺生產方式,而這種變化最后會落到普通人的觀看體驗、記錄方式和創作能力上。
04
WorldForge 背后的科研力量
論文一作宋晨曦,目前是西湖大學 AGI Lab 的博士后研究員,師從張馳教授,2024 年于吉林大學獲得工學博士學位,博士階段主要從事 3D 計算機視覺與計算機圖形學研究。
他當前的研究重點集中在 3D 與 4D 場景建模、可控視頻生成等方向,同時也活躍于學術共同體,擔任 NeurIPS、CVPR、ECCV、AAAI、MM 和 T-CSVT 等會議與期刊的審稿人。
就學術成果來看,他已發表或參與多項代表性工作,包括以第一作者發表在 CVPR 2026 的 WorldForge,以及發表于 IEEE T-CSVT 的 FewarNet,此外還參與了 SwitchCraft、Free-Lunch Long Video Generation、FlowDirector、Fast3Dcache、AppAgentX 等項目,整體研究路徑體現出從多視角重建、3D 幾何建模到訓練自由的視頻生成與世界模型構建的持續推進
![]()
參考鏈接:https://chenxi-song.github.io/
通訊作者張馳,西湖大學助理教授、獨立PI,同時擔任 AGI Lab負責人,在生成式人工智能和多模態智能方向開展研究工作。在
此之前,他曾在騰訊擔任研究科學家,并于新加坡南洋理工大學獲得博士學位,師從林國盛教授,同時與沈春華等學者保持長期合作關系。在學術影響力方面,他連續入選斯坦福大學發布的全球前 2% 科學家榜單,并擔任多個頂級會議和期刊的重要學術服務角色,包括 ICML、ICLR、CVPR 等會議的 Area Chair,以及 IEEE T-CSVT 的副編輯。
在學術成果與研究產出方面,他長期深耕生成式人工智能領域,研究方向涵蓋擴散模型、多模態生成建模以及智能體系統,近年來帶領團隊在 CVPR、ICCV、ICLR、NeurIPS 等頂級會議上持續發表成果,例如 Ultra3D、FlowDirector、WorldForge、MeshAnything、Metric3D、StableLLaVA 等代表性工作。
這些研究從圖像生成、視頻生成延伸到 3D/4D 場景建模以及多模態智能體,形成了一條從視覺理解到世界建模的系統性研究路線。
從整體研究特點來看,張馳的工作強調生成模型的可控性、多模態融合能力以及向真實世界建模能力的拓展,既關注模型基礎理論,也注重實際系統構建與應用落地。例如在視頻生成與3D建模方向,他推動從單純生成內容向可控相機運動和空間理解發展,在智能體方向,他探索多模態大模型在真實交互環境中的應用。
這種研究路徑體現出從傳統計算機視覺向通用人工智能過渡的趨勢,也使其工作處于當前人工智能領域較為前沿的位置。
![]()
參考鏈接:https://icoz69.github.io/
![]()
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.