<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      LeCun預言成真?這有一份通往AGI的硬核路線圖:從BERT到Genie

      0
      分享至

      非羊 整理自 凹非寺量子位 | 公眾號 QbitAI

      從OpenAI的Sora到Google DeepMind的Genie,2025年無疑是世界模型(World Model)的爆發之年。

      然而,繁榮的背后是概念的混戰:世界模型究竟是什么?是強化學習里用來訓練Agent的環境模擬器?是看過所有YouTube視頻的預測模型?還是一個能生成無限3D資產的圖形引擎?

      近日,一篇題為《From Masks to Worlds: A Hitchhiker’s Guide to World Models》的論文在arXiv上引發關注。來自MeissonFlow Research、Georgia Tech、UCLA和UC Merced的聯合研究團隊提出了一份通往AGI的“建造指南”。



      與羅列數百篇論文的傳統綜述不同,作者團隊在文中專注于如何構建真正的世界模型,作者團隊指出:正如LeCun所言,通往真正世界模型(World Model)的道路可能并非自回歸,而是一條由“掩碼(Masking)”鋪就的窄路。

      從BERT到MAE/MaskGIT,再到如今的Genie-3與離散擴散(Discrete Diffusion)模型,Masking正在統一不同模態之間的表征。

      論文認為,從早期的掩碼預訓練(Masked Modeling)出發,經過統一架構與可交互式閉環,并通過設計持久的記憶系統,是構建真正的世界模型最有希望的技術路徑。

      這份“指南”將World Model的演進劃分為五個階段,并用一張全景圖串聯起了從BERT到Genie-3的十年AI進化史。本文將深度拆解這份“世界模型建造指南”,看Masking如何從一個預訓練Trick,一步步進化為統治多模態世界的終極法則。



      正本清源:世界模型不是模型,而是一個“系統”

      在討論技術路線之前,論文首先清理了地基:到底什么是World Model?

      行業內目前的共識往往是破碎的。有人認為它是一個視頻生成器(如Sora),有人認為它是一個交互環境(如Genie)

      但這篇論文認為,真正的世界模型(True World Model)不能是一個單體的黑盒,它需要是一個由三大核心子系統合成的有機整體:

      1. 生成系統(Generative Heart,$G$):這是造夢的引擎。它不僅要預測下一幀,還要模擬世界狀態的演化(Dynamics)、將隱變量映射為觀測(Observation),并預測任務相關的回報(Reward)。它是世界的物理法則載體。

      2. 交互系統(Interactive Loop,$F,C$):這是讓世界“活”起來的關鍵。世界不能只是一部放映的電影,它必須包含推斷器(Inference Filter)來理解現狀,以及策略(Policy)來做出行動。沒有這個閉環,Sora再逼真也只是視頻,不是模擬器。

      3. 記憶系統(Memory System,$M$):這是對抗熵增的防線。它負責通過循環狀態更新,確保世界在時間軸上的持久連貫。沒有記憶,世界就是一連串破碎的幻覺。



      基于這個嚴格的定義,作者繪制了一張跨越五大階段的進化路線圖,將過去十年的AI進展精準歸位。

      而貫穿這五個階段的靈魂線索,正是Masking



      Stage I:Masking范式——被低估的“創世法則”

      為什么是Mask(掩碼)

      在大多數人的認知里,Masking僅僅是BERT時代用來做“完形填空”的預訓練技巧。但論文在Stage I部分提出了一個極其深刻的洞察:Masking不僅僅是技巧,它是跨模態通用的“生成原則”,更是優于自回歸的“創世法則”。

      語言:從填空到“動態去噪”

      在NLP領域,BERT確立了“雙向上下文感知”的優勢,但長期以來,生成任務一直被GPT系列的“從左到右”自回歸(AR)統治。

      然而,變局正在發生。

      論文重點提及了Discrete Diffusion(離散擴散)的崛起。

      以Google的Gemini Diffusion和Inception Labs的Mercury為例,這些模型不再是簡單的一次性填空,而是將Masking進化為一種迭代去噪(Iterative Denoising)過程。

      • 它們將固定比例的掩碼替換為帶時間索引的噪聲調度。
      • 模型學會了從完全的混沌(全Mask)中,一步步“雕刻”出清晰的文本。

      這些工業級系統證明,這種動態掩碼范式在生成質量和推理速度上已經可以比肩甚至超越傳統的自回歸基線。

      視覺:并行生成的王者

      在視覺領域,Masking的統治力更加穩固。

      表征學習MAE(Masked Autoencoders)證明了我們只需要看高比例遮擋的像素就能重構整張圖片,這種高比例遮擋迫使模型學到了極強的語義表征。

      高效生成MaskGITMUSE是這一領域的里程碑。它們利用Masked Generative Transformers(MGT)實現了并行解碼。相比于逐像素生成的AR模型或計算沉重的連續擴散模型,Masking范式在保持高保真度的同時,帶來了極致的效率。

      最新的Meissonic更是證明,Masked Generative Transformers(MGT)可以在高分辨率文生圖任務上,與最頂級的Diffusion模型掰手腕。



      △ Figure 1由Meissonic生成的圖像

      多模態的普適性

      VideoMAE的時空管道掩碼,到wav2vec 2.0的音頻掩碼,再到Point-BERT的3D點云掩碼,Masking證明了自己是能統一所有數據形態的通用語言。

      論文總結道:Stage I確立了“Mask-Infill-Generalize(遮擋-補全-泛化)”作為構建世界模型的地基。

      Stage II:統一架構——Masking讓圖文“同頻共振”

      地基打好后,下一步是架構的統一。目前的AI領域雖然號稱多模態,但往往是“拼湊”的:用LLM處理文本,用Diffusion處理圖像,中間用膠水層粘起來。

      Stage II的目標是Unified Models(統一模型)用同一個Backbone(骨干),在同一個Paradigm(范式)下,處理和生成所有模態。

      但在如何實現“統一”的路徑上,論文清晰地梳理出了兩大陣營的博弈:Language-Prior(語言先驗)Visual-Prior(視覺先驗)



      1.語言先驗建模(Language-Prior Modeling)

      這是目前最主流的路徑,即“將視覺任務納入語言模型框架”。但在這一陣營內部,正發生著一場范式迭代:

      主流:Autoregressive(AR)路線:

      這是Emu3、Chameleon、VILA-U等模型的選擇。它們沿用了GPT式的Next-Token Prediction,試圖用自回歸邏輯統一一切。

      局限:雖然邏輯推理強,但在視覺生成上,自回歸的“單向性”往往難以處理圖像的全局結構。

      突圍:Mask-based(Discrete Diffusion)路線:

      這是論文重點標注的“新貴分支”。以MMaDA、Lumina-DiMOO和LaviDa-O為代表。

      • 核心創新:它們雖然堅持“語言優先”,但拋棄了自回歸,轉而采用Mask-based(掩碼)/Discrete Diffusion(離散擴散)范式。
      • 這意味著,它們在保持語言理解能力的同時,利用Masking的雙向注意力機制來提升視覺生成的質量。這被作者視為Masking范式在語言建模內部的一次勝利。



      2.視覺先驗建模(Visual-Prior Modeling):從看見到讀寫

      另一條路則是從視覺模型出發,反向兼容文本。

      • 基于潛在擴散模型(Latent Diffusion)UniDiffuser
      • 基于掩碼圖像建模(MIM)Muddit



      盡管AR-based模型目前聲量巨大,但Lumina-DiMOOMuddit等工作證明,這種架構不僅能理解圖文,還能在雙向上下文中實現更精細的生成控制,這才是真正能讓“語言邏輯”與“視覺生成”完美兼容的那個最大公約數。

      Stage III:交互式生成——Masking驅動的“模擬器”

      這是World Model真正開始變得有趣的時刻。當模型不再只是預測下一幀,而是開始響應用戶的Action(動作)時,它就從“放映機”變成了“模擬器”。

      這就是Stage III:Interactive Generative Models。從這一階段開始,作者不再局限于Masking范式,這是因為這階段開始Masking范式相關的工作還比較少。

      從GameGAN到Genie

      GameGAN:早期的嘗試,用GAN模仿《吃豆人》,雖然能玩,但泛化性有限。

      • Genie-1:
      • DeepMind的突破之作。它從互聯網視頻中無監督地學習“潛在動作(Latent Actions)”。Genie-1的核心正是基于MaskGIT的離散掩碼生成架構。它通過預測被Mask掉的未來幀,學會了物理規律。



      • Genie-2:
      • 將能力擴展到了準3D空間,引入了更強的對象恒常性。
      • Genie-3:
      • 這是目前的SOTA。它實現了720p分辨率、24fps幀率的實時交互,并能維持分鐘級的連貫游玩。



      為什么Masking對交互至關重要?

      在實時交互場景下,效率就是一切。Mask-based架構(如MaskGIT、Muse)并行解碼能力,使得Genie等模型能夠在極短時間內生成高質量的下一幀,從而閉合“感知-行動”的低延遲回路。

      相比之下,傳統的自回歸視頻生成模型(逐Token預測)在實時性上往往捉襟見肘。

      論文還提到了GameNGenMatrix-Game等基于擴散的實時引擎,它們共同證明了:要造一個可玩的世界,Masking/Diffusion范式是目前最有希望的路線之一。

      然而,盡管Genie-3看起來很美,但它依然患有嚴重的“健忘癥”。玩了幾分鐘后,場景可能會莫名其妙地漂移,之前建好的房子可能回頭就不見了。這引出了下一階段的挑戰。

      Stage IV:記憶與一致性——對抗世界的崩塌

      如果你在《我的世界》里造了一座塔,關掉游戲明天再來,它必須還在那里。

      這就是Stage IV要解決的核心問題:Memory & Consistency(記憶與一致性)

      論文指出,目前的視頻生成模型(包括Genie)大多依賴隱式的KV Cache或有限的Context Window。

      這種機制在長程推理中極其脆弱,容易導致“災難性遺忘(Catastrophic Forgetting)”和“狀態漂移(State Drift)”

      沒有記憶,世界模型只能是“反應式”的,而非“持久”的。為了解決這個問題,論文梳理了三類解決方案:

      1. 外部化記憶(Externalized Memory):像RAG(檢索增強生成)MemGPT那樣,給模型外掛一個可讀寫的硬盤。這讓知識變得可編輯、可追溯。

      2. 架構級持久化(Extending Capacity):僅僅拉長Context Window是不夠的。論文探討了Mamba這類線性時間狀態空間模型(SSM)以及Ring Attention等技術,試圖從架構底層實現“無限上下文”,讓模型能讀完一整本書或玩一整天游戲而不“斷片”。

      3.一致性治理(Regulating Consistency):這是最難的一點。針對視頻生成中的漂移,論文提到了FramePack、Mixture of Contexts(MoC)以及VMem。這些技術試圖利用顯式的3D結構或稀疏注意力,為流動的像素世界打上穩固的“時空樁”。



      “一致性不是把上下文拉長就能解決的。它需要明確的記憶策略——記住什么、遺忘什么、如何更新。”

      Stage V:終極形態——從“模擬器”到“科學儀器”

      當生成系統(Masking驅動)、交互系統(實時響應)和記憶系統(持久一致)完美融合,我們將跨越一道門檻,進入Stage V:True World Models(真正的世界模型)

      此時模型將涌現出三大本質特征:

      1. Persistence(持久性):世界擁有獨立的時間軸,歷史獨立于單次會話存在。世界在你離開后,依然在演化。
      2. Agency(主體性):世界中棲息著多智能體(Agents),它們擁有目標、記憶和社交關系,而非簡單的NPC。
      3. Emergence(涌現性):宏觀的社會規律、經濟周期、文明沖突,從微觀的主體交互中自然涌現,而非腳本預設。



      三大終極難題

      要到達這里,論文列出了橫亙在研究員面前的三座大山:

      • The Coherence Problem(連貫性/評估難題):當世界是自生成的,誰來定義什么是“真”?我們需要新的評估體系來衡量一個虛構世界的邏輯自洽性。
      • The Compression Problem(壓縮/擴展難題):歷史是無限增長的。世界模型必須學會像人類一樣“抽象記憶”,只保留因果相關的狀態,丟棄噪聲,否則計算量將導致系統崩潰。
      • The Alignment Problem(對齊/安全難題):這比對齊一個ChatGPT難上平方倍。我們不僅要對齊世界的“物理法則”(生成器),還要對齊這個世界里涌現出的億萬智能體社會的“社會動態”。

      我們為什么需要研究世界模型?

      為什么要費盡心機,沿著Masking這條窄路構建一個True World Model?

      這篇論文在結尾給出了一個極具浪漫色彩的答案:我們建造世界,不是為了逃避現實,而是為了理解現實。

      一旦跨越了Stage V的門檻,World Model將從娛樂工具升級為“科學儀器(Scientific Instrument)”。

      經濟學家可以在其中運行會導致現實崩潰的貨幣政策實驗;社會學家可以在其中觀察文明的演化與衰亡;認知科學家可以在其中探尋意識誕生的瞬間。



      從BERT的第一個[MASK]標簽,到未來那個生生不息的數字宇宙,Masking范式始終貫穿其中。

      對于所有致力于構建AGI的研究者來說,這篇論文提供了一個至關重要的視角:回頭看看Masking吧,通往未來的地圖,也許就藏在那些被遮住的Token里。

      參考資料
      論文標題:From Masks to Worlds: A Hitchhiker’s Guide to World Models
      論文鏈接:https://arxiv.org/abs/2510.20668
      相關項目:https://github.com/M-E-AGI-Lab/Awesome-World-Models

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      1月新法新規:噪音擾民最高處十日拘留,個人取現超5萬無需登記

      1月新法新規:噪音擾民最高處十日拘留,個人取現超5萬無需登記

      界面新聞
      2026-01-01 08:01:02
      賣給越南一度電三四毛惹爭議

      賣給越南一度電三四毛惹爭議

      辣條叨叨叨
      2025-12-29 02:52:56
      電車泡沫破滅從電池開始,海外市場和儲能都救不了,冬天來了

      電車泡沫破滅從電池開始,海外市場和儲能都救不了,冬天來了

      柏銘銳談
      2026-01-01 12:07:20
      10天了還在追!油輪遭美軍追擊,在船身涂俄羅斯國旗,雙方距800米 此前駛向委內瑞拉

      10天了還在追!油輪遭美軍追擊,在船身涂俄羅斯國旗,雙方距800米 此前駛向委內瑞拉

      紅星新聞
      2025-12-31 18:08:23
      咸魚還是太全面了,怪不得人稱國內黑市

      咸魚還是太全面了,怪不得人稱國內黑市

      另子維愛讀史
      2025-12-20 17:07:20
      美軍瘋了?雙航母+兩棲艦逼近臺海,解放軍實彈軍演硬剛到底!

      美軍瘋了?雙航母+兩棲艦逼近臺海,解放軍實彈軍演硬剛到底!

      達文西看世界
      2026-01-01 14:16:07
      京東001號快遞員已退休,勤懇工作16年,劉強東承諾的房給了嗎?

      京東001號快遞員已退休,勤懇工作16年,劉強東承諾的房給了嗎?

      阿纂看事
      2025-12-10 15:38:14
      2026年醫保劃入標準,退休人員養老金6200元,醫保返款220元嗎?

      2026年醫保劃入標準,退休人員養老金6200元,醫保返款220元嗎?

      天天熱點見聞
      2026-01-01 12:38:01
      企業家扎堆買仰望U8L 王傳福一天內為兩位董事長交車

      企業家扎堆買仰望U8L 王傳福一天內為兩位董事長交車

      快科技
      2025-12-31 15:45:08
      電影《尋秦記》票房破5000萬,有望成為點燃A股院線板塊的導火索

      電影《尋秦記》票房破5000萬,有望成為點燃A股院線板塊的導火索

      東方豪俠
      2026-01-01 14:29:09
      八連勝廣東客戰北京!杜鋒發言暗藏玄機,新年大戰堪稱總決賽預演

      八連勝廣東客戰北京!杜鋒發言暗藏玄機,新年大戰堪稱總決賽預演

      安海客
      2026-01-01 15:44:19
      株洲一中學拆除私裝教室監控:杜絕違規監控影響心態、侵犯隱私可能

      株洲一中學拆除私裝教室監控:杜絕違規監控影響心態、侵犯隱私可能

      澎湃新聞
      2026-01-01 14:32:26
      蒂格:東契奇現在比不過坎寧安,他是進攻天才但防不住任何人

      蒂格:東契奇現在比不過坎寧安,他是進攻天才但防不住任何人

      懂球帝
      2026-01-01 00:57:08
      “印度已正式邀請中國參加”

      “印度已正式邀請中國參加”

      環球時報國際
      2025-12-31 08:48:13
      西部最新排名:掘金創NBA奇跡,湖人收大禮,快船劍指前十

      西部最新排名:掘金創NBA奇跡,湖人收大禮,快船劍指前十

      籃球大視野
      2026-01-01 16:08:54
      項立剛談羅永浩科技春晚: 對一個年過半百的病老人,不能要求過高

      項立剛談羅永浩科技春晚: 對一個年過半百的病老人,不能要求過高

      玖宇維
      2026-01-01 10:35:13
      中方下入境禁令,美務院暴怒!我使館警告:臺島成火藥桶

      中方下入境禁令,美務院暴怒!我使館警告:臺島成火藥桶

      起喜電影
      2026-01-01 15:18:25
      上海跨年夜有游客提前4小時到達外灘觀景臺,商圈飯店排隊近200號

      上海跨年夜有游客提前4小時到達外灘觀景臺,商圈飯店排隊近200號

      極目新聞
      2025-12-31 21:44:49
      你扣我油輪,我沒收你軍火,中國海警發布海報:敢運海馬斯就登船

      你扣我油輪,我沒收你軍火,中國海警發布海報:敢運海馬斯就登船

      荷蘭豆愛健康
      2026-01-01 15:46:36
      河北“一家五口被害案”被告人撤回上訴,法院報請最高法核準范某某死刑;最小被害者僅3歲,兩家因土地糾紛曾有沖突

      河北“一家五口被害案”被告人撤回上訴,法院報請最高法核準范某某死刑;最小被害者僅3歲,兩家因土地糾紛曾有沖突

      大象新聞
      2026-01-01 00:17:04
      2026-01-01 17:03:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11956文章數 176355關注度
      往期回顧 全部

      科技要聞

      2026,沖刺商業航天第一股!

      頭條要聞

      海馬斯火箭炮再度出現在官方海報中 被精準"點殺"

      頭條要聞

      海馬斯火箭炮再度出現在官方海報中 被精準"點殺"

      體育要聞

      楊瀚森為球迷送新年祝福:深知自身差距

      娛樂要聞

      跨年零點時刻好精彩!何炅飛奔擁抱

      財經要聞

      巴菲特「身退,權還在」

      汽車要聞

      一汽-大眾2025年整車銷量超158萬輛 燃油車市占率創新高

      態度原創

      本地
      健康
      教育
      游戲
      公開課

      本地新聞

      即將過去的2025年,對重慶的影響竟然如此深遠

      元旦舉家出行,注意防流感

      教育要聞

      北京“最聰明”的高中生“全軍覆沒”?!“雞娃”的家長撐不下去了!

      女巨人游戲性感新招式:肥臀壓頂、大雷光束等

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 艳妇乳肉豪妇荡乳| 无码国产精品久久一区免费| 贺州市| 亚洲综合精品中文字幕| 老司机午夜免费精品视频| 国产尻逼| 日韩欧美aⅴ综合网站发布| 日本欧美一区二区免费视频| 抚顺市| 亚洲激情偷拍| 揉捏奶头高潮呻吟视频| 人妻va精品va欧美va| 亚洲一区二区三区四区| 男人靠女人免费视频网站| 精品 日韩 国产 欧美 视频| 婷婷91| 国产亚洲精品自在久久vr| 亚洲精品中文字幕制| 国产精品国产三级国产专播 | 国产精品免费AⅤ片在线观看| 日本欧美一区二区免费视频 | 免费毛片手机在线播放| 亚洲国产成人精品女人久久久| 日韩AV中文字幕在线| 香蕉久久av一区二区三区| 人人妻人人妻人人片av| 亚州中文字幕无码| 久久无码网站| 91视频在线观看18| 欧美va| 欧美自拍嘿咻内射在线观看 | 国产V片免费A片视频| 久久婷婷大香萑太香蕉av人| 人人妻久久人人澡人人爽人人精品| 大胆欧美熟妇xx| 国产xxxxxx| 亚洲熟妇AV乱码在线观看| 亚洲综合色婷婷中文字幕| 边添小泬边狠狠躁视频| 亚洲成人av在线| 美女被张开双腿日出白浆|