<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      全新視角看世界模型:從視頻生成邁向通用世界模擬器

      0
      分享至



      近年來,視頻生成(Video Generation)與世界模型(World Models)已躍升為人工智能領域最炙手可熱的焦點。從 Sora 到可靈(Kling),視頻生成模型在運動連續性、物體交互與部分物理先驗上逐漸表現出更強的「世界一致性」,讓人們開始認真討論:能否把視頻生成從「逼真短片」推進到可用于推理、規劃與控制的「通用世界模擬器」。

      與此同時,這一研究方向正快速與具身智能(Embodied AI)、自動駕駛(Autonomous Driving)等前沿場景深度交織,被視為通往通用人工智能(AGI)的重要路徑。

      然而,在研究熱潮之下,「何為真正的世界模型」以及「如何評判視頻模型的世界模擬能力」等核心議題卻陷入了多維爭論。當前,世界模型的定義與分類層出不窮,理論維度的交叉重疊往往令研究者感到困惑,也限制了技術的標準化發展。

      為建立更系統、清晰的審視視角,快手可靈團隊香港科技大學(廣州)陳穎聰教授團隊(共同一作:博士生王羅州、博士生陳知非)聯合發表了從全新視角深度剖析視頻世界模型的系統綜述。

      本文旨在彌合當代「無狀態」視頻架構與經典「以狀態為中心」的世界模型理論之間的鴻溝,首次提出以「狀態構建(State Construction)」與「動態建模(Dynamics Modeling)」為雙支柱的全新分類體系。

      此外,本文力倡將評估標準從單純的「視覺保真度」轉向「功能性基準」,并前瞻性地指出了兩個關鍵技術前沿,為視頻生成演進至魯棒的通用世界模擬器提供了清晰的路線圖。



      • 論文標題:A Mechanistic View on Video Generation as World Models: State and Dynamics
      • 論文鏈接:https://arxiv.org/pdf/2601.17067
      • github 鏈接:https://github.com/hit-perfect/Awesome-Video-World-Models

      綜述結構概要



      核心亮點:這篇綜述的關鍵貢獻是什么?

      相比于過往側重于視覺效果的視頻生成研究,本篇綜述在多個維度具有代際優勢:

      1. 全鏈路視角(Full-Stack Perspective):徹底打破單一的「渲染」視角,涵蓋了從底層理論定義、中層架構設計(狀態構建與動態建模)到上層功能性評估的全生命周期分析,確保對視頻世界模型全方位的理解。
      2. 彌合理論鴻溝(Bridging the Gap):首次將當代「無狀態」(state-less)的視頻擴散架構與經典的基于模型強化學習(MBRL)、控制理論進行深度映射,為世界模型找到了堅實的理論根基。
      3. 前瞻性指南(Forward-Looking Guide):明確了「持久性」與「因果性」 是邁向通用世界模擬器的兩大核心關隘。本研究為業界從被動的「像素預測」轉向具備閉環交互與因果干預能力的模擬器提供了清晰的路徑參考。
      4. 最新研究覆蓋:深度梳理了 2024 至 2025 年間涌現的視頻生成的最新工作,反映了當前技術從視覺保真度向物理一致性轉化的前沿趨勢。

      核心理論

      世界模型的三大基石

      本文首先回歸經典,將世界模型的運作提煉為三個耦合的核心組件,構建了從感知到推理的完整鏈路:



      世界模型的核心操作

      基于前文提出的「三大基石」,本文將世界模型的運行機制歸納為兩項核心操作:





      世界模型的學習方式

      鑒于世界模型主要服務于下游決策,本文將其獲取(訓練)范式按與策略模型(Policy Model)的耦合程度歸納為兩類:

      • 閉環學習(Closed-loop Learning / Coupled Training):世界模型與策略模型聯合訓練,世界模型的參數更新直接受策略目標影響(共享梯度 / 端到端優化),該范式可進一步分為兩種結構:
      • 順序組合(Sequential Architecture):世界模型和策略模型是分開的模塊,但訓練時會端到端聯動:策略目標產生的誤差信號會通過梯度反向傳回世界模型,從而讓生成結果更符合可執行性與物理一致性。
      • 統一架構(Unified Architecture):將世界模型與策略整合為單一端到端系統,在同一框架內共同優化感知、預測與動作生成。
      • 開環學習(Open-loop Learning / Decoupled Training):將世界模型視為通過大規模被動數據預訓練得到的獨立模擬器;策略模型可在自身優化中調用世界模型進行「想象 / 規劃」,但世界模型不接收來自策略獎勵信號或損失函數的梯度更新(模型凍結)。



      視頻模型的演進:邁向魯棒世界模擬器

      現代視頻生成模型雖已具備很強的視覺保真度并被視為潛在的世界模型載體,但與上面分析的經典世界模型相比仍存在兩大關鍵差距:



      在動態(Dynamics)層面,標準模型常以雙向注意力「一次性渲染」固定時長片段,缺少顯式時間因果推進,近期工作則通過因果架構重構(自回歸、因果掩碼、滾動預測等)或因果知識集成(借助 LMM 做規劃約束或統一耦合優化)來注入因果性(causality)。

      核心支柱

      為了刻畫視頻生成模型邁向穩健世界模型的演進路徑,本文首先從其內部表示入手,重點審視狀態(state)的構建:將「狀態」視為對環境當前配置的充分統計量,并以此為核心把歷史信息有機融入統一表示中。通過將長期背景提煉并沉淀到這種狀態表示里,模型才能在更長時程下維持一致的記憶與連貫的模擬。

      隨后,本文進一步分析視頻生成模型中動態(dynamics)行為的來源,強調模型需要內化潛在的因果規律,使得隨時間推進的演化既符合物理可行性,也在邏輯層面保持自洽與一致。

      支柱一:狀態構建(State Construction)

      視頻模型如何「記住」過去?如何處理歷史信息?本文將現有的狀態處理機制劃分為隱式(Implicit State)顯式(Explicit State)兩大范式,并對其優劣進行了深度解構:

      隱式狀態(記憶機制管理)











      顯式狀態(內核表示)

      這一范式將狀態構建內化為模型自身的壓縮過程:它不再維護不斷增長的歷史幀緩沖區,而是把歷史上下文持續蒸餾進一個全局更新的潛在變量(State)中,使其成為對視頻演化過程的固定維度、可遞推的數學摘要。

      • 耦合狀態(Coupled States):狀態轉移與生成骨干深度融合,模型在同一網絡內實現「邊生成、邊更新」。狀態通常體現為網絡內部的隱藏記憶(如 SSM/RNN/LSTM 隱狀態或注意力緩沖區),也可通過在線優化 / 可塑性把歷史信息編碼進參數,使狀態融入生成器的內部動力學,代表工作如 TTT [5] 、SANA-Video [6] 等。
      • 解耦狀態(Decoupled States):狀態與生成器內部激活分離,作為獨立顯式表征被單獨維護與更新,生成器每步讀取該狀態進行渲染。常見路徑包括:語義導向(用 LLM 等維護世界描述 / 敘事邏輯)與幾何導向(用點云或 3D Gaussian splatting 等 3D 記憶,通過融合 / 反投影迭代更新以保持空間一致性)。



      隱式狀態 vs. 顯式狀態的系統性對比







      總體取舍是:隱式狀態目前更穩妥地支持高保真視頻生成,而顯式狀態更像通往高效、可長期推理的自主智能體與世界模擬的前沿方向。



      支柱二:動態建模(Dynamics Modeling)

      如何讓生成的視頻不只是「看起來像」,而是真正符合物理規律與時間邏輯?本文歸納了兩條增強因果推理能力的主要路徑:

      • 因果架構重構(Causal Architecture Reformulation):從模型結構與訓練目標入手,把生成過程從「一次性渲染」改造成「按時間順序預測」,通過因果遮罩等機制避免未來信息泄漏,并結合不同的訓練 / 噪聲調度策略強化嚴格的時間依賴;同時通過 forcing 等方式模擬推理階段的誤差累積與曝光偏差,縮小訓練與推理的差距,使長時程 rollout 更穩定、更符合物理一致性與邏輯連貫性,代表工作如 Self-Forcing [7] 等。
      • 因果知識集成(Causal Knowledge Integration):引入具備更強推理與常識能力的多模態大模(LMM/VLM/LLM)作為「規劃者 / 導演」,先在高層完成時序、動作與場景邏輯的規劃,再由視頻生成模型負責高保真「渲染」;更進一步的統一框架會將理解與生成更緊密地耦合,讓推理信號直接約束生成過程,從而提升動態演化的因果可信度,代表工作如 Owl-1 [8] 等。

      支柱三:評估體系(Evaluation)

      如果說視頻生成更關心「好不好看」,那么世界模擬還需要更關心「好不好用」。傳統的 IS/FVD 等指標主要衡量短片段的視覺真實感,已難以回答模型是否具備可持續推演、可交互、可用于決策的「世界模型」能力。因此,本文主張將評估從 「視覺美感」進一步推進到「功能基準」,并提出三條核心評價軸:

      • 質量(Quality):關注基礎視覺保真度、短程時序相干性以及文本 / 條件對齊能力,代表性工具如 VBench [9] / VBench++ [10] 等,用更細粒度的維度拆解「畫面是否穩定、主體是否一致、語義是否對齊」。
      • 持久性(Persistence):關注長時程 rollout 的穩定性與一致性,既看生成長度拉長后是否出現漂移 / 崩壞,也通過「場景重訪(re-visitation)」等記憶任務檢驗模型能否在回到舊地點時恢復正確狀態,而不是憑空補細節;相關評測包括 WCS [11] 以及基于 rFID [12] 的重建一致性測試等。
      • 因果性(Causality):作為世界模擬的核心能力,重點檢驗模型是否真正內化物理與邏輯規律,既包括時間順序與物理有效性(如 ChronoMagic-Bench [13] 、Physics-IQ [14] ),也包括反事實干預下的響應是否合理(例如改變動作 / 初始條件后,世界是否按因果產生不同且自洽的結果),并進一步延伸到 agent-in-the-loop 的任務成功率與規劃表現(如 World-in-World [15] 等)。

      未來研究方向

      視頻生成邁向世界模擬的關鍵,在于補齊兩項核心能力:持久性(persistence)因果性(causality)

      前者要求模型在長時程生成中保持穩定一致的狀態:隱式狀態需要從固定窗口等啟發式記憶升級為可學習、可動態篩選的信息管理機制;顯式狀態則要在壓縮效率與細節保真之間找到更好的平衡。

      后者要求模型從統計相關走向因果機制:一條路線是通過架構與數據設計提升因果推斷能力(更好地解耦潛在因果因素),另一條路線是引入理解模型的推理先驗來約束生成,但如何有效對齊生成與理解仍是核心挑戰。

      結語

      綜上所述,隨著視頻生成技術在各領域的爆發式增長,如何使其具備真實世界的模擬能力已成為不可回避的挑戰。通過全鏈路的技術剖析,本綜述不僅彌合了視頻架構與經典理論之間的裂痕,還揭示了從「隱 / 顯式狀態構建」到「因果動態建模」的關鍵路徑。

      這篇綜述為學術界和工業界提供了一個重要的參考框架,幫助研究者在通往通用世界模擬器的征途中精準定位。

      團隊相信,通過應對綜述中列出的挑戰,該領域可以從生成視覺上逼真的視頻發展到構建穩健的通用世界模擬器,為自動駕駛、具身智能等領域的長足發展奠定堅實基石。

      參考文獻

      [1] L. Zhang and M. Agrawala. Packing input frame context in next-frame prediction models for video generation. arXiv preprint arXiv:2504.12626, 2025.

      [2] Z. Xiao et al. Worldmem: Long-term consistent world simulation with memory. arXiv preprint arXiv:2504.12369, 2025.

      [3] X. Wu et al. Corgi: Cached memory guided video generation. arXiv preprint arXiv:2508.16078, 2025.

      [4] R. Henschel et al. Streamingt2v: Consistent, dynamic, and extendable long video generation from text. In Proceedings of the Computer Vision and Pattern Recognition Conference, pp. 2568–2577, 2025.

      [5] K. Dalal et al. One-minute video generation with test-time training. In Proceedings of the Computer Vision and Pattern Recognition Conference, pp. 17702–17711, 2025.

      [6] J. Chen et al. Sana-video: Efficient video generation with block linear diffusion transformer. arXiv preprint arXiv:2509.24695, 2025.

      [7] X. Huang et al. Self forcing: Bridging the train-test gap in autoregressive video diffusion. arXiv preprint arXiv:2506.08009, 2025.

      [8] Y. Huang et al. Owl-1: Omni world model for consistent long video generation. arXiv preprint arXiv:2412.09600, 2024.

      [9] Z. Huang et al. Vbench: Comprehensive benchmark suite for video generative models, 2023.

      [10] Z. Huang et al. Vbench++: Comprehensive and versatile benchmark suite for video generative models, 2024.

      [11] A. Rakheja et al. World consistency score: A unified metric for video generation quality, 2025.

      [12] M. Heusel et al. Gans trained by a two time-scale update rule converge to a local nash equilibrium, 2018.

      [13] S. Yuan et al. Chronomagic-bench: A benchmark for metamor-phic evaluation of text-to-time-lapse video generation, 2024.

      [14] S. Motamed et al. Do generative video models understand physical principles?, 2025.

      [15] J. Zhang et al. World-in-world: World models in a closed-loop world, 2025.

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      最快女護士張水華代言年收入逼近500萬,辭去工作也是贏家

      最快女護士張水華代言年收入逼近500萬,辭去工作也是贏家

      姜大叔侃球
      2026-02-19 17:23:27
      十日通牒當頭!開場只剩俄伊!東大艦艇未現身

      十日通牒當頭!開場只剩俄伊!東大艦艇未現身

      深度報
      2026-02-20 22:03:21
      別做被圈養的羊!拆穿“牢A”的謊言與收割套路

      別做被圈養的羊!拆穿“牢A”的謊言與收割套路

      濤哥銳評
      2026-02-21 15:32:24
      超越國界!蘇翊鳴激動擁抱日本女選手,感恩日本教練培養

      超越國界!蘇翊鳴激動擁抱日本女選手,感恩日本教練培養

      米修體育
      2026-02-20 16:12:13
      崔敏靜摘得女子1500米銀牌,3屆冬奧會收獲4金3銀

      崔敏靜摘得女子1500米銀牌,3屆冬奧會收獲4金3銀

      懂球帝
      2026-02-21 10:18:49
      山東高速男籃:第二階段邱彪還有哪些后手,哪些球員有望成為奇兵

      山東高速男籃:第二階段邱彪還有哪些后手,哪些球員有望成為奇兵

      梅亭談
      2026-02-21 16:50:19
      湖人125-122快船!老詹談小卡把話挑明,東契奇該夸,湖人被看衰

      湖人125-122快船!老詹談小卡把話挑明,東契奇該夸,湖人被看衰

      魚崖大話籃球
      2026-02-21 17:09:45
      豪門水深!李嘉誠與梁洛施的私密協議曝光:不讓3個孫子入李家

      豪門水深!李嘉誠與梁洛施的私密協議曝光:不讓3個孫子入李家

      黃小仙的搞笑視頻
      2025-11-23 13:58:12
      “資助不起裝什么孫子!”2006年,貧困大學生向海清向媒體怒斥

      “資助不起裝什么孫子!”2006年,貧困大學生向海清向媒體怒斥

      百態人間
      2026-02-05 15:42:49
      特朗普將解密外星生命相關文件,實物黃金即將迎來宇宙級暴漲

      特朗普將解密外星生命相關文件,實物黃金即將迎來宇宙級暴漲

      東方豪俠
      2026-02-20 14:28:41
      賴斯:我經常回看杰拉德比賽視頻;我們想贏球必須相互講實話

      賴斯:我經常回看杰拉德比賽視頻;我們想贏球必須相互講實話

      懂球帝
      2026-02-21 17:46:14
      央視曝:全程追蹤美航母,殲-20S“獵殺”能力讓美媒炸鍋

      央視曝:全程追蹤美航母,殲-20S“獵殺”能力讓美媒炸鍋

      梁訊
      2026-02-20 23:02:48
      觀眾也看累了,斯維托麗娜2-1高芙晉級WTA1000迪拜站決賽

      觀眾也看累了,斯維托麗娜2-1高芙晉級WTA1000迪拜站決賽

      懂球帝
      2026-02-21 03:37:09
      回顧探花大神:害人害己,多位女主被親戚認出當場“社死”

      回顧探花大神:害人害己,多位女主被親戚認出當場“社死”

      就一點
      2025-10-09 12:19:42
      震驚!閆學晶稅務問題再升級,背后真相讓人意外!

      震驚!閆學晶稅務問題再升級,背后真相讓人意外!

      未曾青梅
      2026-02-15 22:59:54
      印度挺不住了,急切“從中國進口”

      印度挺不住了,急切“從中國進口”

      都市快報橙柿互動
      2026-02-21 00:09:07
      德國總理默茨積極籌備訪華之行

      德國總理默茨積極籌備訪華之行

      參考消息
      2026-02-21 16:21:05
      再拿一金一銅,中國體育代表團4金3銀5銅排在獎牌榜第12位

      再拿一金一銅,中國體育代表團4金3銀5銅排在獎牌榜第12位

      懂球帝
      2026-02-20 22:30:50
      洪森將中國援建基地轉送美,太原艦拉響戰斗警報055能滅一個艦隊

      洪森將中國援建基地轉送美,太原艦拉響戰斗警報055能滅一個艦隊

      路路觀察
      2026-02-20 20:20:09
      新8號來了!國安找到古加替代者,攻擊力更強,將成球隊中場新核

      新8號來了!國安找到古加替代者,攻擊力更強,將成球隊中場新核

      體壇鑒春秋
      2026-02-21 15:58:46
      2026-02-21 18:44:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12325文章數 142569關注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      美大法官"大戰"總統撕開財政千億黑洞 特朗普閃電反擊

      頭條要聞

      美大法官"大戰"總統撕開財政千億黑洞 特朗普閃電反擊

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      教育
      本地
      家居
      游戲
      公開課

      教育要聞

      新春走基層 | 慢飛天使捏出 “年的形狀”

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      家居要聞

      本真棲居 愛暖伴流年

      NS版火紅/葉綠疑似不支持寶可夢Home 全圖鑒要涼了?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版