非羊 整理自 凹非寺量子位 | 公眾號 QbitAI
從OpenAI的Sora到Google DeepMind的Genie,2025年無疑是世界模型(World Model)的爆發之年。
然而,繁榮的背后是概念的混戰:世界模型究竟是什么?是強化學習里用來訓練Agent的環境模擬器?是看過所有YouTube視頻的預測模型?還是一個能生成無限3D資產的圖形引擎?
近日,一篇題為《From Masks to Worlds: A Hitchhiker’s Guide to World Models》的論文在arXiv上引發關注。來自MeissonFlow Research、Georgia Tech、UCLA和UC Merced的聯合研究團隊提出了一份通往AGI的“建造指南”。
![]()
與羅列數百篇論文的傳統綜述不同,作者團隊在文中專注于如何構建真正的世界模型,作者團隊指出:正如LeCun所言,通往真正世界模型(World Model)的道路可能并非自回歸,而是一條由“掩碼(Masking)”鋪就的窄路。
從BERT到MAE/MaskGIT,再到如今的Genie-3與離散擴散(Discrete Diffusion)模型,Masking正在統一不同模態之間的表征。
論文認為,從早期的掩碼預訓練(Masked Modeling)出發,經過統一架構與可交互式閉環,并通過設計持久的記憶系統,是構建真正的世界模型最有希望的技術路徑。
這份“指南”將World Model的演進劃分為五個階段,并用一張全景圖串聯起了從BERT到Genie-3的十年AI進化史。本文將深度拆解這份“世界模型建造指南”,看Masking如何從一個預訓練Trick,一步步進化為統治多模態世界的終極法則。
![]()
正本清源:世界模型不是模型,而是一個“系統”
在討論技術路線之前,論文首先清理了地基:到底什么是World Model?
行業內目前的共識往往是破碎的。有人認為它是一個視頻生成器(如Sora),有人認為它是一個交互環境(如Genie)
但這篇論文認為,真正的世界模型(True World Model)不能是一個單體的黑盒,它需要是一個由三大核心子系統合成的有機整體:
1. 生成系統(Generative Heart,$G$):這是造夢的引擎。它不僅要預測下一幀,還要模擬世界狀態的演化(Dynamics)、將隱變量映射為觀測(Observation),并預測任務相關的回報(Reward)。它是世界的物理法則載體。
2. 交互系統(Interactive Loop,$F,C$):這是讓世界“活”起來的關鍵。世界不能只是一部放映的電影,它必須包含推斷器(Inference Filter)來理解現狀,以及策略(Policy)來做出行動。沒有這個閉環,Sora再逼真也只是視頻,不是模擬器。
3. 記憶系統(Memory System,$M$):這是對抗熵增的防線。它負責通過循環狀態更新,確保世界在時間軸上的持久連貫。沒有記憶,世界就是一連串破碎的幻覺。
![]()
基于這個嚴格的定義,作者繪制了一張跨越五大階段的進化路線圖,將過去十年的AI進展精準歸位。
而貫穿這五個階段的靈魂線索,正是Masking
![]()
Stage I:Masking范式——被低估的“創世法則”
為什么是Mask(掩碼)
在大多數人的認知里,Masking僅僅是BERT時代用來做“完形填空”的預訓練技巧。但論文在Stage I部分提出了一個極其深刻的洞察:Masking不僅僅是技巧,它是跨模態通用的“生成原則”,更是優于自回歸的“創世法則”。
語言:從填空到“動態去噪”
在NLP領域,BERT確立了“雙向上下文感知”的優勢,但長期以來,生成任務一直被GPT系列的“從左到右”自回歸(AR)統治。
然而,變局正在發生。
論文重點提及了Discrete Diffusion(離散擴散)的崛起。
以Google的Gemini Diffusion和Inception Labs的Mercury為例,這些模型不再是簡單的一次性填空,而是將Masking進化為一種迭代去噪(Iterative Denoising)過程。
- 它們將固定比例的掩碼替換為帶時間索引的噪聲調度。
- 模型學會了從完全的混沌(全Mask)中,一步步“雕刻”出清晰的文本。
這些工業級系統證明,這種動態掩碼范式在生成質量和推理速度上已經可以比肩甚至超越傳統的自回歸基線。
視覺:并行生成的王者
在視覺領域,Masking的統治力更加穩固。
表征學習MAE(Masked Autoencoders)證明了我們只需要看高比例遮擋的像素就能重構整張圖片,這種高比例遮擋迫使模型學到了極強的語義表征。
高效生成MaskGITMUSE是這一領域的里程碑。它們利用Masked Generative Transformers(MGT)實現了并行解碼。相比于逐像素生成的AR模型或計算沉重的連續擴散模型,Masking范式在保持高保真度的同時,帶來了極致的效率。
最新的Meissonic更是證明,Masked Generative Transformers(MGT)可以在高分辨率文生圖任務上,與最頂級的Diffusion模型掰手腕。
![]()
△ Figure 1由Meissonic生成的圖像
多模態的普適性
VideoMAE的時空管道掩碼,到wav2vec 2.0的音頻掩碼,再到Point-BERT的3D點云掩碼,Masking證明了自己是能統一所有數據形態的通用語言。
論文總結道:Stage I確立了“Mask-Infill-Generalize(遮擋-補全-泛化)”作為構建世界模型的地基。
Stage II:統一架構——Masking讓圖文“同頻共振”
地基打好后,下一步是架構的統一。目前的AI領域雖然號稱多模態,但往往是“拼湊”的:用LLM處理文本,用Diffusion處理圖像,中間用膠水層粘起來。
Stage II的目標是Unified Models(統一模型)用同一個Backbone(骨干),在同一個Paradigm(范式)下,處理和生成所有模態。
但在如何實現“統一”的路徑上,論文清晰地梳理出了兩大陣營的博弈:Language-Prior(語言先驗)Visual-Prior(視覺先驗)
![]()
1.語言先驗建模(Language-Prior Modeling)
這是目前最主流的路徑,即“將視覺任務納入語言模型框架”。但在這一陣營內部,正發生著一場范式迭代:
主流:Autoregressive(AR)路線:
這是Emu3、Chameleon、VILA-U等模型的選擇。它們沿用了GPT式的Next-Token Prediction,試圖用自回歸邏輯統一一切。
局限:雖然邏輯推理強,但在視覺生成上,自回歸的“單向性”往往難以處理圖像的全局結構。
突圍:Mask-based(Discrete Diffusion)路線:
這是論文重點標注的“新貴分支”。以MMaDA、Lumina-DiMOO和LaviDa-O為代表。
- 核心創新:它們雖然堅持“語言優先”,但拋棄了自回歸,轉而采用Mask-based(掩碼)/Discrete Diffusion(離散擴散)范式。
- 這意味著,它們在保持語言理解能力的同時,利用Masking的雙向注意力機制來提升視覺生成的質量。這被作者視為Masking范式在語言建模內部的一次勝利。
![]()
2.視覺先驗建模(Visual-Prior Modeling):從看見到讀寫
另一條路則是從視覺模型出發,反向兼容文本。
- 基于潛在擴散模型(Latent Diffusion)UniDiffuser
- 基于掩碼圖像建模(MIM)Muddit
![]()
盡管AR-based模型目前聲量巨大,但Lumina-DiMOOMuddit等工作證明,這種架構不僅能理解圖文,還能在雙向上下文中實現更精細的生成控制,這才是真正能讓“語言邏輯”與“視覺生成”完美兼容的那個最大公約數。
Stage III:交互式生成——Masking驅動的“模擬器”
這是World Model真正開始變得有趣的時刻。當模型不再只是預測下一幀,而是開始響應用戶的Action(動作)時,它就從“放映機”變成了“模擬器”。
這就是Stage III:Interactive Generative Models。從這一階段開始,作者不再局限于Masking范式,這是因為這階段開始Masking范式相關的工作還比較少。
從GameGAN到Genie
GameGAN:早期的嘗試,用GAN模仿《吃豆人》,雖然能玩,但泛化性有限。
- Genie-1:
- DeepMind的突破之作。它從互聯網視頻中無監督地學習“潛在動作(Latent Actions)”。Genie-1的核心正是基于MaskGIT的離散掩碼生成架構。它通過預測被Mask掉的未來幀,學會了物理規律。
![]()
- Genie-2:
- 將能力擴展到了準3D空間,引入了更強的對象恒常性。
- Genie-3:
- 這是目前的SOTA。它實現了720p分辨率、24fps幀率的實時交互,并能維持分鐘級的連貫游玩。
![]()
為什么Masking對交互至關重要?
在實時交互場景下,效率就是一切。Mask-based架構(如MaskGIT、Muse)并行解碼能力,使得Genie等模型能夠在極短時間內生成高質量的下一幀,從而閉合“感知-行動”的低延遲回路。
相比之下,傳統的自回歸視頻生成模型(逐Token預測)在實時性上往往捉襟見肘。
論文還提到了GameNGenMatrix-Game等基于擴散的實時引擎,它們共同證明了:要造一個可玩的世界,Masking/Diffusion范式是目前最有希望的路線之一。
然而,盡管Genie-3看起來很美,但它依然患有嚴重的“健忘癥”。玩了幾分鐘后,場景可能會莫名其妙地漂移,之前建好的房子可能回頭就不見了。這引出了下一階段的挑戰。
Stage IV:記憶與一致性——對抗世界的崩塌
如果你在《我的世界》里造了一座塔,關掉游戲明天再來,它必須還在那里。
這就是Stage IV要解決的核心問題:Memory & Consistency(記憶與一致性)
論文指出,目前的視頻生成模型(包括Genie)大多依賴隱式的KV Cache或有限的Context Window。
這種機制在長程推理中極其脆弱,容易導致“災難性遺忘(Catastrophic Forgetting)”和“狀態漂移(State Drift)”
沒有記憶,世界模型只能是“反應式”的,而非“持久”的。為了解決這個問題,論文梳理了三類解決方案:
1. 外部化記憶(Externalized Memory):像RAG(檢索增強生成)MemGPT那樣,給模型外掛一個可讀寫的硬盤。這讓知識變得可編輯、可追溯。
2. 架構級持久化(Extending Capacity):僅僅拉長Context Window是不夠的。論文探討了Mamba這類線性時間狀態空間模型(SSM)以及Ring Attention等技術,試圖從架構底層實現“無限上下文”,讓模型能讀完一整本書或玩一整天游戲而不“斷片”。
3.一致性治理(Regulating Consistency):這是最難的一點。針對視頻生成中的漂移,論文提到了FramePack、Mixture of Contexts(MoC)以及VMem。這些技術試圖利用顯式的3D結構或稀疏注意力,為流動的像素世界打上穩固的“時空樁”。
![]()
“一致性不是把上下文拉長就能解決的。它需要明確的記憶策略——記住什么、遺忘什么、如何更新。”
Stage V:終極形態——從“模擬器”到“科學儀器”
當生成系統(Masking驅動)、交互系統(實時響應)和記憶系統(持久一致)完美融合,我們將跨越一道門檻,進入Stage V:True World Models(真正的世界模型)
此時模型將涌現出三大本質特征:
1. Persistence(持久性):世界擁有獨立的時間軸,歷史獨立于單次會話存在。世界在你離開后,依然在演化。
2. Agency(主體性):世界中棲息著多智能體(Agents),它們擁有目標、記憶和社交關系,而非簡單的NPC。
3. Emergence(涌現性):宏觀的社會規律、經濟周期、文明沖突,從微觀的主體交互中自然涌現,而非腳本預設。

三大終極難題
要到達這里,論文列出了橫亙在研究員面前的三座大山:
- The Coherence Problem(連貫性/評估難題):當世界是自生成的,誰來定義什么是“真”?我們需要新的評估體系來衡量一個虛構世界的邏輯自洽性。
- The Compression Problem(壓縮/擴展難題):歷史是無限增長的。世界模型必須學會像人類一樣“抽象記憶”,只保留因果相關的狀態,丟棄噪聲,否則計算量將導致系統崩潰。
- The Alignment Problem(對齊/安全難題):這比對齊一個ChatGPT難上平方倍。我們不僅要對齊世界的“物理法則”(生成器),還要對齊這個世界里涌現出的億萬智能體社會的“社會動態”。
我們為什么需要研究世界模型?
為什么要費盡心機,沿著Masking這條窄路構建一個True World Model?
這篇論文在結尾給出了一個極具浪漫色彩的答案:我們建造世界,不是為了逃避現實,而是為了理解現實。
一旦跨越了Stage V的門檻,World Model將從娛樂工具升級為“科學儀器(Scientific Instrument)”。
經濟學家可以在其中運行會導致現實崩潰的貨幣政策實驗;社會學家可以在其中觀察文明的演化與衰亡;認知科學家可以在其中探尋意識誕生的瞬間。
![]()
從BERT的第一個[MASK]標簽,到未來那個生生不息的數字宇宙,Masking范式始終貫穿其中。
對于所有致力于構建AGI的研究者來說,這篇論文提供了一個至關重要的視角:回頭看看Masking吧,通往未來的地圖,也許就藏在那些被遮住的Token里。
參考資料
論文標題:From Masks to Worlds: A Hitchhiker’s Guide to World Models
論文鏈接:https://arxiv.org/abs/2510.20668
相關項目:https://github.com/M-E-AGI-Lab/Awesome-World-Models
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.