網易首頁 > 網易號 > 正文申請入駐

西湖大學張馳團隊：從視覺合成到空間理解，視頻 AI 正在「轉向」丨CVPR 2026

2026-04-11 11:06:04　來源: AI科技評論

廣東舉報

分享至

WorldForge：一種實現相機軌跡可控的視頻生成方法。

作者丨鄭佳美

編輯丨岑峰

過去兩年，視頻生成的發展幾乎是指數級的。從最早只能生成模糊片段，到如今可以生成具有敘事結構、光影一致性甚至風格控制的長視頻，行業表面上已經接近一個階段性成熟。

但如果把評價標準從“能不能生成一段視頻”稍微提高到“能不能控制鏡頭”，問題就會完全暴露出來。當前大多數模型仍然停留在一種近似二維的生成范式中，它們擅長在時間上延續視覺模式，卻缺乏對空間結構的穩定建模能力。

一旦涉及視角變化，模型往往無法保證同一個物體在不同幀之間的幾何一致性，人物會發生細微但累積的漂移，建筑結構在移動中逐漸扭曲，遮擋關系也難以維持連續，這意味著模型生成的并不是一個被持續觀察的世界，而是一系列在視覺上相似但空間上不一致的結果。

在這樣的行業背景下，西湖大學 AGI Lab 研究團隊提出了論文《Taming Video Models for 3D and 4D Generation via Zero Shot Camera Control》。值得一提的是，這篇論文也入選了CVPR Highlight。與以往通過重新訓練模型來引入控制能力的路徑不同，這項工作將問題重新落回到推理階段本身，嘗試在不改變模型參數的情況下，讓相機軌跡成為生成過程中的約束條件，使模型在每一步生成中持續對齊同一個空間結構。

換句話說，這項研究關注的不是如何讓模型生成更多內容，而是如何讓模型在視角變化中保持世界的一致性，從而把視頻生成從二維視覺合成，推進到具有三維結構約束的動態世界建模。

如果從應用角度理解這一點，可以把它看成一種能力的轉變。過去模型更像一個能夠不斷畫出新畫面的系統，而現在的目標，是讓模型像一個可以移動的攝影機，在同一個場景中進行觀察和記錄。無論是商品展示、空間漫游，還是內容創作中的鏡頭設計，本質上都依賴這種能力的成立。

WorldForge 的提出，正是在這一關鍵轉折點上，給出了一個不依賴額外訓練、卻能夠實現精確相機控制的路徑，也因此成為當前視頻生成從“生成能力競爭”走向“空間一致性與可控性競爭”的一個代表性工作。

論文地址：https://arxiv.org/pdf/2509.15130

跨任務、多指標的統一性能提升

在實驗結果方面，研究團隊首先驗證了 3D 靜態場景生成，也就是單圖到多視角任務，相關數據來自 Table 1。從生成質量看，WorldForge 的 FID 為 96.08，是所有方法里最低的，CLIPsim 為 0.948，是所有方法里最高的。作為對比，TrajectoryCrafter 的 FID 為 111.49，CLIPsim 為 0.910，NVS-Solver 的 FID 為 118.64，CLIPsim 為 0.937。

這說明 WorldForge 在真實感和語義一致性上都更強，FID 從 118 下降到 96，降幅約 20%，CLIPsim 從 0.91 提升到 0.948，說明生成結果既更真實，又更符合原圖語義。

從軌跡精度也就是相機控制能力看，WorldForge 的 ATE 為 0.077，是最低值，RPE-T 為 0.086，RPE-R 為 0.221。對比來看，ViewCrafter 的 ATE 為 0.236，約為 WorldForge 的 3 倍，NVS-Solver 的 RPE-R 為 1.056，明顯高于 0.221，所以可以看出，相機路徑誤差被顯著壓低，整體大約達到 2 到 5 倍的改進。

在 4D 動態視頻生成任務中，也就是輸入視頻并重新指定軌跡的場景，相關數據來自 Table 2。從視頻質量看，WorldForge 的 FVD 為 93.17，是最低值，CLIP-Vsim 為 0.938，是最高值。

對比方法中，TrajectoryCrafter 的 FVD 為 97.31，ViewExtrapolator 的 FVD 為 108.48。也就是說，WorldForge 相比 108 降到 93，提升幅度約為 15%，說明在動態視頻生成中，畫面質量和語義一致性仍然保持領先。從軌跡精度看，WorldForge 的 ATE 為 0.527，RPE-T 為 0.826，RPE-R 為 2.690，而 ViewExtrapolator 的 ATE 為 1.040，幾乎是前者的兩倍，這說明在動態視頻條件下，WorldForge 依然能保持比較穩定的軌跡控制效果。

除了性能指標，研究人員還給出了實驗規模，這部分信息很重要。在 3D 任務中，實驗覆蓋 40 多個場景、70 多張單圖輸入，使用的數據集包括 LLFF、Tanks & Temples、MipNeRF 360，同時還加入了真實圖片和 AI 生成圖片。

在 4D 任務中，實驗覆蓋 30 多個視頻和 50 多個測試樣例，數據來源包括 DAVIS 數據集、電影片段以及 VDM 生成視頻。這樣的設置說明，測試范圍同時覆蓋真實世界數據和合成數據，泛化能力驗證相對充分。

研究團隊還說明了實驗條件。主模型使用 Wan2.1，規模為 14B，硬件方面需要至少 69GB 顯存的 GPU。生成階段采用 50 步采樣，其中 IRR 作用在前 20 步。這組條件說明，方法在效果上很強，但計算成本也比較高，對硬件資源有較高要求。

在消融實驗部分，相關數據來自 Table 3。完整模型表現最好，其中 FID 為 96.08，FVD 為 93.17。去掉 DSG 以后，FID 上升到 109.43，FVD 上升到 95.69，說明畫面質量和視頻質量都明顯變差。

去掉 FLF 以后，FID 進一步上升到 112.69，FVD 上升到 99.79，結果更差。把 DSG 和 FLF 一起去掉以后，FID 達到 113.12，FVD 達到 103.17，退化更加明顯。如果把 DSG 換成傳統 CFG，結果最差，FID 達到 120.91，FVD 達到 109.1。

綜合這些數字可以看到，每個模塊都會帶來大約 10% 到 20% 的性能提升，而且幾個模塊之間存在明顯的互補關系，少了任何一個，整體效果都會下降。

一套可遷移、可控制的生成流程

在實驗經過方面，研究團隊首先從模型設置入手驗證方法的通用性，一共選用了三個不同類型的視頻生成模型進行測試，分別是作為主實驗基礎模型的 Wan2.1，其規模為 14B，作為輕量級對照模型的 SVD，以及較新的 LongCat-Video 模型。

通過在這三類能力和結構差異明顯的模型上分別進行實驗，研究人員觀察方法在不同基礎能力條件下的表現變化，結果顯示方法可以直接遷移到不同視頻模型中使用，不依賴特定模型結構或訓練方式，因此具有明顯的模型無關性，也就是 model-agnostic 特征。

在推理流程參數方面，研究團隊對擴散生成過程進行了精細控制。整個視頻生成過程統一設置為 50 步采樣。在這一過程中，IRR 并不是在全部步驟中持續作用，而是集中作用在前 35% 到 45% 的階段，也就是大約前 15 到 25 步之間，在主實驗配置中通常為前 20 步。

這一階段主要負責建立整體結構和運動趨勢，因此通過 IRR 在這一階段持續注入軌跡信息，可以不斷修正生成方向，使結果逐步貼近目標相機路徑。

與此同時，FLF 在時間維度上也采用分階段策略，在最初的若干步中關閉 FLF，讓模型優先利用全部通道建立整體結構，避免過早限制信息流動而影響全局布局，隨后在中后期逐漸啟用 FLF，對通道進行篩選，僅對運動相關通道施加約束，從而在不破壞外觀細節的前提下加強軌跡控制。

這種安排體現出一種明顯的時間調度機制，也就是在不同生成階段分配不同控制強度，從而在結構穩定性與細節保真之間取得平衡。

在軌跡類型設計方面，研究團隊為了驗證方法的適用范圍，構建了多種不同形式的相機運動路徑進行測試，包括圓弧軌跡，也就是 arc，用于模擬圍繞目標的側向移動；推進軌跡，也就是 dolly，用于模擬鏡頭前進或后退；旋轉軌跡，也就是 orbit，用于實現環繞式觀察；以及自由探索路徑，用于測試復雜、不規則的相機運動。

這些軌跡不僅在幾何形式上存在差異，同時在運動幅度、視角變化范圍以及遮擋情況上也存在顯著不同。通過在這些多樣化軌跡條件下進行實驗，研究人員驗證方法不僅可以處理規則路徑，也可以應對復雜動態路徑，從而說明方法具備較強的泛化能力，而不是只對某一類預設運動模板有效。

在評價指標選擇方面，研究團隊結合任務特點進行了專門設計。對于單圖生成多視角的 3D 任務，由于輸入只有一張圖像，目標視角并不存在真實參考，也就是沒有 ground truth，因此無法使用依賴真實圖像對比的指標，例如 PSNR 這一類像素級誤差指標。

在這種情況下，研究人員選擇使用 FID 來衡量生成結果在分布層面與真實圖像的接近程度，同時使用 CLIP 相似度來評估生成內容在語義層面與輸入圖像的一致性。

對于 4D 動態視頻任務，則進一步引入 FVD 來衡量視頻整體質量，以及 CLIP-Vsim 來評估視頻語義一致性。這種指標體系體現出研究團隊對問題性質的理解，也就是把任務視為生成問題而不是重建問題，因此評價重點放在真實感、語義一致性以及時間連續性，而不是像素級還原精度。

從結果優化，到過程控制的一次轉向

在實驗意義方面，這項研究的價值不僅體現在指標提升上，更體現在它改變了視頻生成技術的發展方向。首先，從性能上看，研究結果不是只優化了某一個局部環節，而是在多個核心維度上同時取得提升。

FID 下降了 20%，FVD 下降了 15%，軌跡誤差降低了 2 到 5 倍，這說明研究團隊提出的方法既能讓畫面更真實，也能讓視頻更穩定，還能讓相機運動更準確。

換句話說，研究人員解決的不是單一的清晰度問題，也不是單一的控制問題，而是把生成質量、運動一致性和空間控制能力一起往前推進了一步，這種全面提升說明方法已經具備較強的實用潛力。

從方法意義上看，這項研究進一步說明，視頻生成未來的重要方向，很可能不是不斷重新訓練更大的模型，而是在推理過程中進行更精細的控制。研究人員通過實驗發現，傳統 CFG 在這一任務中會失敗，FID 會高到 120 以上，而使用 DSG 以后，FID 可以降到 96。

這說明過去那種主要面向圖像生成的控制思路，放到視頻任務里并不夠用，因為視頻不僅要生成單幀內容，還要保證前后幀銜接自然，人物和場景不能亂變，鏡頭運動也不能失控。也正因為如此，研究團隊提出的結構感知式控制方式才顯得更有意義，它證明視頻生成不能只靠簡單加條件，而是需要真正理解空間結構和運動關系。

從理論意義上看，這項研究還有一個很重要的貢獻，就是進一步證明了 latent 空間內部并不是混在一起、無法區分的。FLF 的實驗結果表明，不同通道確實承擔著不同功能，有些更偏向運動信息，有些更偏向外觀與細節信息。

從工程意義上看，這項研究也很誠實地揭示了當前技術所處的階段。方法雖然強，但成本也高，需要大約 70GB 顯存，還要進行多路徑推理，所以它更像是一種高質量離線渲染方案，而不是已經成熟到可以實時運行的輕量系統。

這一點其實也很有意義，因為它告訴人們，當前視頻生成技術已經能夠做出高質量結果，但距離真正低成本、實時化、大規模普及，還有一段工程化的路要走。也就是說，這項研究更像是在證明一件事可行，而不是已經把一件事做成人人隨手可用的產品。

如果進一步看這項研究對普通人的影響，意義會更直觀。對于普通用戶來說，這類技術未來最直接的變化，就是拍視頻和做視頻的門檻可能會繼續降低。以前想拍出鏡頭繞人移動、緩慢推進、自由換視角的效果，往往需要專業攝影設備、軌道、穩定器，甚至還要后期團隊處理。

沿著這項研究繼續發展，未來普通人只用一張圖或者一段普通視頻，就有可能生成更像電影鏡頭的畫面，旅游視頻、畢業紀念、短視頻創作、家庭影像記錄都會因此變得更容易、更豐富。

對于內容創作者來說，這種技術會進一步改變創作方式。很多人沒有專業拍攝條件，也不會復雜建模，但依然希望讓視頻看起來更有空間感、更有鏡頭語言。

這項研究說明，未來創作者可能只需要先拍一個基礎畫面，后續再通過生成式方法重新設計鏡頭軌跡，讓鏡頭前進、環繞、拉遠、探索場景，等于把部分攝影和后期能力交給了模型。這樣一來，個人創作者、小型工作室，甚至普通學生，都可能獲得過去只有專業團隊才能完成的視覺表達能力。

也就是說，這項研究雖然現在還主要停留在高成本實驗階段，但它指向的是一種更低門檻、更強表達力的視覺生產方式，而這種變化最后會落到普通人的觀看體驗、記錄方式和創作能力上。

WorldForge 背后的科研力量

論文一作宋晨曦，目前是西湖大學 AGI Lab 的博士后研究員，師從張馳教授，2024 年于吉林大學獲得工學博士學位，博士階段主要從事 3D 計算機視覺與計算機圖形學研究。

他當前的研究重點集中在 3D 與 4D 場景建模、可控視頻生成等方向，同時也活躍于學術共同體，擔任 NeurIPS、CVPR、ECCV、AAAI、MM 和 T-CSVT 等會議與期刊的審稿人。

就學術成果來看，他已發表或參與多項代表性工作，包括以第一作者發表在 CVPR 2026 的 WorldForge，以及發表于 IEEE T-CSVT 的 FewarNet，此外還參與了 SwitchCraft、Free-Lunch Long Video Generation、FlowDirector、Fast3Dcache、AppAgentX 等項目，整體研究路徑體現出從多視角重建、3D 幾何建模到訓練自由的視頻生成與世界模型構建的持續推進

參考鏈接：https://chenxi-song.github.io/

通訊作者張馳，西湖大學助理教授、獨立PI，同時擔任 AGI Lab負責人，在生成式人工智能和多模態智能方向開展研究工作。在

此之前，他曾在騰訊擔任研究科學家，并于新加坡南洋理工大學獲得博士學位，師從林國盛教授，同時與沈春華等學者保持長期合作關系。在學術影響力方面，他連續入選斯坦福大學發布的全球前 2% 科學家榜單，并擔任多個頂級會議和期刊的重要學術服務角色，包括 ICML、ICLR、CVPR 等會議的 Area Chair，以及 IEEE T-CSVT 的副編輯。

在學術成果與研究產出方面，他長期深耕生成式人工智能領域，研究方向涵蓋擴散模型、多模態生成建模以及智能體系統，近年來帶領團隊在 CVPR、ICCV、ICLR、NeurIPS 等頂級會議上持續發表成果，例如 Ultra3D、FlowDirector、WorldForge、MeshAnything、Metric3D、StableLLaVA 等代表性工作。

這些研究從圖像生成、視頻生成延伸到 3D/4D 場景建模以及多模態智能體，形成了一條從視覺理解到世界建模的系統性研究路線。

從整體研究特點來看，張馳的工作強調生成模型的可控性、多模態融合能力以及向真實世界建模能力的拓展，既關注模型基礎理論，也注重實際系統構建與應用落地。例如在視頻生成與3D建模方向，他推動從單純生成內容向可控相機運動和空間理解發展，在智能體方向，他探索多模態大模型在真實交互環境中的應用。

這種研究路徑體現出從傳統計算機視覺向通用人工智能過渡的趨勢，也使其工作處于當前人工智能領域較為前沿的位置。

參考鏈接：https://icoz69.github.io/

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.