<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      西湖大學張馳團隊:從視覺合成到空間理解,視頻 AI 正在「轉向」丨CVPR 2026

      0
      分享至


      WorldForge:一種實現相機軌跡可控的視頻生成方法。

      作者丨鄭佳美

      編輯丨岑 峰

      過去兩年,視頻生成的發展幾乎是指數級的。從最早只能生成模糊片段,到如今可以生成具有敘事結構、光影一致性甚至風格控制的長視頻,行業表面上已經接近一個階段性成熟。

      但如果把評價標準從“能不能生成一段視頻”稍微提高到“能不能控制鏡頭”,問題就會完全暴露出來。當前大多數模型仍然停留在一種近似二維的生成范式中,它們擅長在時間上延續視覺模式,卻缺乏對空間結構的穩定建模能力。

      一旦涉及視角變化,模型往往無法保證同一個物體在不同幀之間的幾何一致性,人物會發生細微但累積的漂移,建筑結構在移動中逐漸扭曲,遮擋關系也難以維持連續,這意味著模型生成的并不是一個被持續觀察的世界,而是一系列在視覺上相似但空間上不一致的結果。

      在這樣的行業背景下,西湖大學 AGI Lab 研究團隊提出了論文《Taming Video Models for 3D and 4D Generation via Zero Shot Camera Control》。值得一提的是,這篇論文也入選了CVPR Highlight。與以往通過重新訓練模型來引入控制能力的路徑不同,這項工作將問題重新落回到推理階段本身,嘗試在不改變模型參數的情況下,讓相機軌跡成為生成過程中的約束條件,使模型在每一步生成中持續對齊同一個空間結構。

      換句話說,這項研究關注的不是如何讓模型生成更多內容,而是如何讓模型在視角變化中保持世界的一致性,從而把視頻生成從二維視覺合成,推進到具有三維結構約束的動態世界建模。

      如果從應用角度理解這一點,可以把它看成一種能力的轉變。過去模型更像一個能夠不斷畫出新畫面的系統,而現在的目標,是讓模型像一個可以移動的攝影機,在同一個場景中進行觀察和記錄。無論是商品展示、空間漫游,還是內容創作中的鏡頭設計,本質上都依賴這種能力的成立。

      WorldForge 的提出,正是在這一關鍵轉折點上,給出了一個不依賴額外訓練、卻能夠實現精確相機控制的路徑,也因此成為當前視頻生成從“生成能力競爭”走向“空間一致性與可控性競爭”的一個代表性工作。


      論文地址:https://arxiv.org/pdf/2509.15130

      01


      跨任務、多指標的統一性能提升

      在實驗結果方面,研究團隊首先驗證了 3D 靜態場景生成,也就是單圖到多視角任務,相關數據來自 Table 1。從生成質量看,WorldForge 的 FID 為 96.08,是所有方法里最低的,CLIPsim 為 0.948,是所有方法里最高的。作為對比,TrajectoryCrafter 的 FID 為 111.49,CLIPsim 為 0.910,NVS-Solver 的 FID 為 118.64,CLIPsim 為 0.937。

      這說明 WorldForge 在真實感和語義一致性上都更強,FID 從 118 下降到 96,降幅約 20%,CLIPsim 從 0.91 提升到 0.948,說明生成結果既更真實,又更符合原圖語義。

      從軌跡精度也就是相機控制能力看,WorldForge 的 ATE 為 0.077,是最低值,RPE-T 為 0.086,RPE-R 為 0.221。對比來看,ViewCrafter 的 ATE 為 0.236,約為 WorldForge 的 3 倍,NVS-Solver 的 RPE-R 為 1.056,明顯高于 0.221,所以可以看出,相機路徑誤差被顯著壓低,整體大約達到 2 到 5 倍的改進。

      在 4D 動態視頻生成任務中,也就是輸入視頻并重新指定軌跡的場景,相關數據來自 Table 2。從視頻質量看,WorldForge 的 FVD 為 93.17,是最低值,CLIP-Vsim 為 0.938,是最高值。


      對比方法中,TrajectoryCrafter 的 FVD 為 97.31,ViewExtrapolator 的 FVD 為 108.48。也就是說,WorldForge 相比 108 降到 93,提升幅度約為 15%,說明在動態視頻生成中,畫面質量和語義一致性仍然保持領先。從軌跡精度看,WorldForge 的 ATE 為 0.527,RPE-T 為 0.826,RPE-R 為 2.690,而 ViewExtrapolator 的 ATE 為 1.040,幾乎是前者的兩倍,這說明在動態視頻條件下,WorldForge 依然能保持比較穩定的軌跡控制效果。

      除了性能指標,研究人員還給出了實驗規模,這部分信息很重要。在 3D 任務中,實驗覆蓋 40 多個場景、70 多張單圖輸入,使用的數據集包括 LLFF、Tanks & Temples、MipNeRF 360,同時還加入了真實圖片和 AI 生成圖片。


      在 4D 任務中,實驗覆蓋 30 多個視頻和 50 多個測試樣例,數據來源包括 DAVIS 數據集、電影片段以及 VDM 生成視頻。這樣的設置說明,測試范圍同時覆蓋真實世界數據和合成數據,泛化能力驗證相對充分。

      研究團隊還說明了實驗條件。主模型使用 Wan2.1,規模為 14B,硬件方面需要至少 69GB 顯存的 GPU。生成階段采用 50 步采樣,其中 IRR 作用在前 20 步。這組條件說明,方法在效果上很強,但計算成本也比較高,對硬件資源有較高要求。

      在消融實驗部分,相關數據來自 Table 3。完整模型表現最好,其中 FID 為 96.08,FVD 為 93.17。去掉 DSG 以后,FID 上升到 109.43,FVD 上升到 95.69,說明畫面質量和視頻質量都明顯變差。

      去掉 FLF 以后,FID 進一步上升到 112.69,FVD 上升到 99.79,結果更差。把 DSG 和 FLF 一起去掉以后,FID 達到 113.12,FVD 達到 103.17,退化更加明顯。如果把 DSG 換成傳統 CFG,結果最差,FID 達到 120.91,FVD 達到 109.1。

      綜合這些數字可以看到,每個模塊都會帶來大約 10% 到 20% 的性能提升,而且幾個模塊之間存在明顯的互補關系,少了任何一個,整體效果都會下降。


      02


      一套可遷移、可控制的生成流程

      在實驗經過方面,研究團隊首先從模型設置入手驗證方法的通用性,一共選用了三個不同類型的視頻生成模型進行測試,分別是作為主實驗基礎模型的 Wan2.1,其規模為 14B,作為輕量級對照模型的 SVD,以及較新的 LongCat-Video 模型。

      通過在這三類能力和結構差異明顯的模型上分別進行實驗,研究人員觀察方法在不同基礎能力條件下的表現變化,結果顯示方法可以直接遷移到不同視頻模型中使用,不依賴特定模型結構或訓練方式,因此具有明顯的模型無關性,也就是 model-agnostic 特征。


      在推理流程參數方面,研究團隊對擴散生成過程進行了精細控制。整個視頻生成過程統一設置為 50 步采樣。在這一過程中,IRR 并不是在全部步驟中持續作用,而是集中作用在前 35% 到 45% 的階段,也就是大約前 15 到 25 步之間,在主實驗配置中通常為前 20 步。

      這一階段主要負責建立整體結構和運動趨勢,因此通過 IRR 在這一階段持續注入軌跡信息,可以不斷修正生成方向,使結果逐步貼近目標相機路徑。


      與此同時,FLF 在時間維度上也采用分階段策略,在最初的若干步中關閉 FLF,讓模型優先利用全部通道建立整體結構,避免過早限制信息流動而影響全局布局,隨后在中后期逐漸啟用 FLF,對通道進行篩選,僅對運動相關通道施加約束,從而在不破壞外觀細節的前提下加強軌跡控制。

      這種安排體現出一種明顯的時間調度機制,也就是在不同生成階段分配不同控制強度,從而在結構穩定性與細節保真之間取得平衡。


      在軌跡類型設計方面,研究團隊為了驗證方法的適用范圍,構建了多種不同形式的相機運動路徑進行測試,包括圓弧軌跡,也就是 arc,用于模擬圍繞目標的側向移動;推進軌跡,也就是 dolly,用于模擬鏡頭前進或后退;旋轉軌跡,也就是 orbit,用于實現環繞式觀察;以及自由探索路徑,用于測試復雜、不規則的相機運動。

      這些軌跡不僅在幾何形式上存在差異,同時在運動幅度、視角變化范圍以及遮擋情況上也存在顯著不同。通過在這些多樣化軌跡條件下進行實驗,研究人員驗證方法不僅可以處理規則路徑,也可以應對復雜動態路徑,從而說明方法具備較強的泛化能力,而不是只對某一類預設運動模板有效。


      在評價指標選擇方面,研究團隊結合任務特點進行了專門設計。對于單圖生成多視角的 3D 任務,由于輸入只有一張圖像,目標視角并不存在真實參考,也就是沒有 ground truth,因此無法使用依賴真實圖像對比的指標,例如 PSNR 這一類像素級誤差指標。

      在這種情況下,研究人員選擇使用 FID 來衡量生成結果在分布層面與真實圖像的接近程度,同時使用 CLIP 相似度來評估生成內容在語義層面與輸入圖像的一致性。

      對于 4D 動態視頻任務,則進一步引入 FVD 來衡量視頻整體質量,以及 CLIP-Vsim 來評估視頻語義一致性。這種指標體系體現出研究團隊對問題性質的理解,也就是把任務視為生成問題而不是重建問題,因此評價重點放在真實感、語義一致性以及時間連續性,而不是像素級還原精度。

      03


      從結果優化,到過程控制的一次轉向

      在實驗意義方面,這項研究的價值不僅體現在指標提升上,更體現在它改變了視頻生成技術的發展方向。首先,從性能上看,研究結果不是只優化了某一個局部環節,而是在多個核心維度上同時取得提升。

      FID 下降了 20%,FVD 下降了 15%,軌跡誤差降低了 2 到 5 倍,這說明研究團隊提出的方法既能讓畫面更真實,也能讓視頻更穩定,還能讓相機運動更準確。

      換句話說,研究人員解決的不是單一的清晰度問題,也不是單一的控制問題,而是把生成質量、運動一致性和空間控制能力一起往前推進了一步,這種全面提升說明方法已經具備較強的實用潛力。

      從方法意義上看,這項研究進一步說明,視頻生成未來的重要方向,很可能不是不斷重新訓練更大的模型,而是在推理過程中進行更精細的控制。研究人員通過實驗發現,傳統 CFG 在這一任務中會失敗,FID 會高到 120 以上,而使用 DSG 以后,FID 可以降到 96。

      這說明過去那種主要面向圖像生成的控制思路,放到視頻任務里并不夠用,因為視頻不僅要生成單幀內容,還要保證前后幀銜接自然,人物和場景不能亂變,鏡頭運動也不能失控。也正因為如此,研究團隊提出的結構感知式控制方式才顯得更有意義,它證明視頻生成不能只靠簡單加條件,而是需要真正理解空間結構和運動關系。

      從理論意義上看,這項研究還有一個很重要的貢獻,就是進一步證明了 latent 空間內部并不是混在一起、無法區分的。FLF 的實驗結果表明,不同通道確實承擔著不同功能,有些更偏向運動信息,有些更偏向外觀與細節信息。

      從工程意義上看,這項研究也很誠實地揭示了當前技術所處的階段。方法雖然強,但成本也高,需要大約 70GB 顯存,還要進行多路徑推理,所以它更像是一種高質量離線渲染方案,而不是已經成熟到可以實時運行的輕量系統。

      這一點其實也很有意義,因為它告訴人們,當前視頻生成技術已經能夠做出高質量結果,但距離真正低成本、實時化、大規模普及,還有一段工程化的路要走。也就是說,這項研究更像是在證明一件事可行,而不是已經把一件事做成人人隨手可用的產品。

      如果進一步看這項研究對普通人的影響,意義會更直觀。對于普通用戶來說,這類技術未來最直接的變化,就是拍視頻和做視頻的門檻可能會繼續降低。以前想拍出鏡頭繞人移動、緩慢推進、自由換視角的效果,往往需要專業攝影設備、軌道、穩定器,甚至還要后期團隊處理。

      沿著這項研究繼續發展,未來普通人只用一張圖或者一段普通視頻,就有可能生成更像電影鏡頭的畫面,旅游視頻、畢業紀念、短視頻創作、家庭影像記錄都會因此變得更容易、更豐富。

      對于內容創作者來說,這種技術會進一步改變創作方式。很多人沒有專業拍攝條件,也不會復雜建模,但依然希望讓視頻看起來更有空間感、更有鏡頭語言。

      這項研究說明,未來創作者可能只需要先拍一個基礎畫面,后續再通過生成式方法重新設計鏡頭軌跡,讓鏡頭前進、環繞、拉遠、探索場景,等于把部分攝影和后期能力交給了模型。這樣一來,個人創作者、小型工作室,甚至普通學生,都可能獲得過去只有專業團隊才能完成的視覺表達能力。

      也就是說,這項研究雖然現在還主要停留在高成本實驗階段,但它指向的是一種更低門檻、更強表達力的視覺生產方式,而這種變化最后會落到普通人的觀看體驗、記錄方式和創作能力上。

      04


      WorldForge 背后的科研力量

      論文一作宋晨曦,目前是西湖大學 AGI Lab 的博士后研究員,師從張馳教授,2024 年于吉林大學獲得工學博士學位,博士階段主要從事 3D 計算機視覺與計算機圖形學研究。

      他當前的研究重點集中在 3D 與 4D 場景建模、可控視頻生成等方向,同時也活躍于學術共同體,擔任 NeurIPS、CVPR、ECCV、AAAI、MM 和 T-CSVT 等會議與期刊的審稿人。

      就學術成果來看,他已發表或參與多項代表性工作,包括以第一作者發表在 CVPR 2026 的 WorldForge,以及發表于 IEEE T-CSVT 的 FewarNet,此外還參與了 SwitchCraft、Free-Lunch Long Video Generation、FlowDirector、Fast3Dcache、AppAgentX 等項目,整體研究路徑體現出從多視角重建、3D 幾何建模到訓練自由的視頻生成與世界模型構建的持續推進


      參考鏈接:https://chenxi-song.github.io/

      通訊作者張馳,西湖大學助理教授、獨立PI,同時擔任 AGI Lab負責人,在生成式人工智能和多模態智能方向開展研究工作。在

      此之前,他曾在騰訊擔任研究科學家,并于新加坡南洋理工大學獲得博士學位,師從林國盛教授,同時與沈春華等學者保持長期合作關系。在學術影響力方面,他連續入選斯坦福大學發布的全球前 2% 科學家榜單,并擔任多個頂級會議和期刊的重要學術服務角色,包括 ICML、ICLR、CVPR 等會議的 Area Chair,以及 IEEE T-CSVT 的副編輯。

      在學術成果與研究產出方面,他長期深耕生成式人工智能領域,研究方向涵蓋擴散模型、多模態生成建模以及智能體系統,近年來帶領團隊在 CVPR、ICCV、ICLR、NeurIPS 等頂級會議上持續發表成果,例如 Ultra3D、FlowDirector、WorldForge、MeshAnything、Metric3D、StableLLaVA 等代表性工作。

      這些研究從圖像生成、視頻生成延伸到 3D/4D 場景建模以及多模態智能體,形成了一條從視覺理解到世界建模的系統性研究路線。

      從整體研究特點來看,張馳的工作強調生成模型的可控性、多模態融合能力以及向真實世界建模能力的拓展,既關注模型基礎理論,也注重實際系統構建與應用落地。例如在視頻生成與3D建模方向,他推動從單純生成內容向可控相機運動和空間理解發展,在智能體方向,他探索多模態大模型在真實交互環境中的應用。

      這種研究路徑體現出從傳統計算機視覺向通用人工智能過渡的趨勢,也使其工作處于當前人工智能領域較為前沿的位置。


      參考鏈接:https://icoz69.github.io/


      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      新華社點名曝光:拼多多暴力抗法細節!

      新華社點名曝光:拼多多暴力抗法細節!

      仕道
      2026-04-18 20:55:32
      網友稱山西一酒店回訪電話暴露其行程致家庭破碎,酒店回應:正常回訪,但電話沒接通

      網友稱山西一酒店回訪電話暴露其行程致家庭破碎,酒店回應:正常回訪,但電話沒接通

      瀟湘晨報
      2026-04-18 22:04:11
      事發浦東機場!女子稱兩次拒絕幫陌生人帶行李,多名網友:我也遇到過!

      事發浦東機場!女子稱兩次拒絕幫陌生人帶行李,多名網友:我也遇到過!

      上觀新聞
      2026-04-18 20:28:04
      烏克蘭基輔槍擊事件已致5人死亡 槍手身份公布

      烏克蘭基輔槍擊事件已致5人死亡 槍手身份公布

      財聯社
      2026-04-19 00:18:15
      世上最失敗4大工程:損失慘重,中國占倆!卻說有意料之外效果?

      世上最失敗4大工程:損失慘重,中國占倆!卻說有意料之外效果?

      三毛看世界
      2026-04-17 16:43:17
      廠妹的生活

      廠妹的生活

      微微熱評
      2026-04-19 09:02:11
      6個家庭天塌了!成都面包車追尾致6死5傷,原因公布,真相太氣人

      6個家庭天塌了!成都面包車追尾致6死5傷,原因公布,真相太氣人

      奇思妙想草葉君
      2026-04-18 23:52:46
      47:52!美投票結果出來了,特朗普態度轉變,希拉里:美處于弱勢

      47:52!美投票結果出來了,特朗普態度轉變,希拉里:美處于弱勢

      流史歲月
      2026-04-18 16:00:03
      大媽走道閘被砸傷后續:大媽自曝身份,索賠2萬,車主堅決不妥協

      大媽走道閘被砸傷后續:大媽自曝身份,索賠2萬,車主堅決不妥協

      奇思妙想草葉君
      2026-04-18 12:40:12
      決裂?姆巴佩硬剛皇馬!拒絕克洛普執教,力挺一人入主

      決裂?姆巴佩硬剛皇馬!拒絕克洛普執教,力挺一人入主

      奶蓋熊本熊
      2026-04-19 00:32:00
      1000萬美元投向中國,美國民主基金會又在憋什么壞水?

      1000萬美元投向中國,美國民主基金會又在憋什么壞水?

      補壹刀
      2026-04-18 14:04:08
      新型啃老正在流行,68歲老人哭訴:你們的孝順讓我有苦說不出

      新型啃老正在流行,68歲老人哭訴:你們的孝順讓我有苦說不出

      蟬吟槐蕊
      2026-04-18 08:26:05
      張雪機車,全球訂單狂飆

      張雪機車,全球訂單狂飆

      第一財經資訊
      2026-04-18 18:42:46
      火箭沒杜蘭特真不行!多出手27次仍輸球,無牽制點后沒一個能進的

      火箭沒杜蘭特真不行!多出手27次仍輸球,無牽制點后沒一個能進的

      籃球資訊達人
      2026-04-19 11:52:39
      離譜!iPhone 忠誠度飆到 96.4%,創歷史新高

      離譜!iPhone 忠誠度飆到 96.4%,創歷史新高

      新浪財經
      2026-04-18 18:47:00
      何潤東回應亮相“蘇超”為何不騎馬:10年前一定騎馬,現在50多歲了,“一摔下來就幻滅,對項羽不太尊重,想給大家留下美好印象”

      何潤東回應亮相“蘇超”為何不騎馬:10年前一定騎馬,現在50多歲了,“一摔下來就幻滅,對項羽不太尊重,想給大家留下美好印象”

      揚子晚報
      2026-04-19 09:12:34
      死亡之瞳感染全隊!41歲勒布朗19+13+8創六紀錄 經受住單核考驗

      死亡之瞳感染全隊!41歲勒布朗19+13+8創六紀錄 經受住單核考驗

      顏小白的籃球夢
      2026-04-19 11:21:33
      如何更理性客觀看待“雷軍北京到上海1313Km續航測試?”

      如何更理性客觀看待“雷軍北京到上海1313Km續航測試?”

      新浪財經
      2026-04-18 19:09:53
      多次遭特朗普大罵“紙老虎”“毫無用處”,北約“罕見”大動作:30國駐北約大使集體訪日!日本已囤積44.4噸核材料,足夠造5500枚核彈頭

      多次遭特朗普大罵“紙老虎”“毫無用處”,北約“罕見”大動作:30國駐北約大使集體訪日!日本已囤積44.4噸核材料,足夠造5500枚核彈頭

      揚子晚報
      2026-04-19 07:55:51
      博主給涼山孤兒蓋房,用村里水得交200,還遭工人背刺,網友炸鍋

      博主給涼山孤兒蓋房,用村里水得交200,還遭工人背刺,網友炸鍋

      奇思妙想草葉君
      2026-04-18 13:14:56
      2026-04-19 13:48:49
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7200文章數 20744關注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀錄!300臺機器人狂飆半馬

      頭條要聞

      牛彈琴:伊朗遭到特朗普"羞辱"被激怒 結果印度遭了殃

      頭條要聞

      牛彈琴:伊朗遭到特朗普"羞辱"被激怒 結果印度遭了殃

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      張天愛評論區淪陷!被曝卷入小三風波

      財經要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態度原創

      藝術
      房產
      本地
      公開課
      軍事航空

      藝術要聞

      當代著名畫家 | 全山石人物油畫23幅

      房產要聞

      官宣簽約最強城更!海口樓市,突然殺入神秘房企!

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗逼退美掃雷艇:美方求給15分鐘撤退

      無障礙瀏覽 進入關懷版