網易首頁 > 網易科技 > 網易科技 > 正文

“世界模型”火了，但英偉達、李飛飛和楊立昆說的根本不是一回事

2026-04-18 10:57:25　來源: 網易智能

北京舉報

分享至

在當下的AI圈，“世界模型”幾乎是最熱的詞之一。

李飛飛在講，楊立昆在講，英偉達也直接把它做成了產品。可問題恰恰在這里，同樣叫“世界模型”，他們說的其實不是同一種東西。

英偉達想做的是能批量生成物理環境的仿真基礎設施，李飛飛押注的是讓機器真正理解三維空間和物體關系的空間智能，楊立昆追求的則是能夠進行因果推理和長期規劃的認知架構。

也就是說，外界口中的“世界模型”并不是一條統一的技術路線，如果你分不清，就很容易看不懂，為什么英偉達能先賺錢，為什么李飛飛更容易產品化，又為什么楊立昆的路線最遠也最難。

而這股熱潮已經不只是海外巨頭的游戲。光是2026年4月，小鵬、阿里、騰訊就接連發布了各自的"世界模型"，國內玩家也在加速入場。但在跟風之前，更值得搞清楚的是：這個詞背后的路線之爭，到底在爭什么？

一、英偉達Cosmos：工業級的“創世引擎”

英偉達的路線可以被總結為仿真基礎設施（Simulation Infrastructure）。對于黃仁勛來說，“世界模型”不僅僅是一個理論，它必須是能跑在GPU陣列上的、基于物理規律的數字孿生環境。

從動機上說，英偉達的“世界模型”是為了彌補“數據貧困”的護城河。

在過去，物理交互數據的稀缺一直是機器人和具身智能發展的瓶頸。人類不可能在現實中讓機器人摔倒一億次來學習走路。英偉達的Cosmos及其背后的仿真體系，其核心邏輯就是利用合成環境（Synthetic Environments）來填補這一空白。

英偉達的目標是建立大規模的、基于物理規律的環境，用于訓練、評估和運行物理AI系統，這主要體現在兩個維度：

· 物理模擬：它建模的是整個物理環境的運行規律，包括重力、摩擦力、碰撞等。

· 規模化生產：這種“合成數據”的生產能力構成了其最明顯的護城河。

盡管戰略分析師兼投資人娜塔莎·馬爾帕尼（Natasha Malpani）認為，隨著機器人公司積累大規模的真實交互數據，這種對仿真的極度依賴（即所謂“數據貧困的產物”）可能會終結，但目前來看英偉達依然穩坐“工業級創世者”的寶座。而且業界主流看法是，真實數據和合成數據是互補而非替代關系，仿真環境在極端場景測試以及安全驗證方面的價值，絕不會因為真實數據的增長而消失殆盡。

二、李飛飛與World Labs：空間智能的“建筑師”

被譽為“AI教母”的李飛飛，其新公司World Labs押注的則是空間智能（Spatial Intelligence）。

李飛飛的目標是讓機器擁有一個持久且準確的物理空間模型，賦予機器“深度”與“知覺”。這意味著機器需要理解三大核心要素：

· 物體在哪兒：精確的3D位置。

· 它們如何移動：動態的物理軌跡。

· 它們提供了什么“可供性”（Affordance，即物體對使用者所提供行動可能性）：例如，一個杯子是可以被抓取的，一張椅子是可以坐下的。

目前，李飛飛的路線被認為是最扎實的。她專注于建模物理世界中的對象及其空間關系。因為這種需求更窄、更可靠，自然也更易于在短期內實現商業化部署。

三、楊立昆與AMI Labs：重構“數字心智”

如果說英偉達在造“環境”，那么圖靈獎得主楊立昆（Yann LeCun）則在嘗試造“大腦”。他通過AMI Labs推進的是一種認知架構（Cognitive Architecture），追求因果而非概率。

楊立昆認為目前的AI只是在做預測而沒有真正的規劃。他心目中的“世界模型”是一個能夠構建現實的因果模型，并能在此模型內部進行規劃的系統。

AMI Labs的技術路線基于楊立昆提出的JEPA（Joint Embedding Predictive Architecture，聯合嵌入預測架構）。與當前主流大模型逐字預測下一個詞不同，JEPA的核心思路是在抽象的表征空間中預測事物的未來狀態。它不預測下一個像素或下一個詞，而是預測"接下來會發生什么"的整體模式。

為此，楊立昆構想了一個三位一體的架構方案。根據公開報道分析，楊立昆的路線包含三個核心組件，其中第三個在目前看來還堪比外星人的“黑科技”：

· 因果模型：理解世界運作的邏輯，而不僅僅是像素的排列。

· 前向模擬器：在大腦中“預演”各種可能的未來。

· 篩選機制：這是目前最關鍵的一環。它是一種先驗判斷能力，用于決定哪些未來值得模擬、哪些根本不需要考慮。就像一位優秀棋手不會把每一步可能的走法都算一遍，而是直覺性地只關注少數有價值的選項。

這種機制是預測與真正規劃之間的本質區別，目前還沒哪個AI系統能做到這一點，這也是楊立昆路線被認為時間表最長、最難實現的根本原因。

四、深度對壘：三家路線的異同分析

為了更清晰地理解這“三場豪賭”的真實成色，我們不僅要看科學家說了什么，更要看他們做了什么、賣給了誰以及變現路徑在哪里。

維度一|核心定義的差異：你在建模什么？

雖然都叫“世界模型”，但其底層建模的“顆粒度”完全不同：

· 英偉達（上帝視角）：建模的是“物理環境”。英偉達關注的是宏觀的物理場，包括重力、摩擦力、流體力學以及復雜的光影反射。如果說AI是個賽車手，英偉達就是那個造賽車場和高精度模擬器的人。

· 李飛飛（建筑師視角）：建模的是“物理對象”。她側重于3D視覺和物體的空間屬性。她關心的核心問題是“這個杯子是實心的嗎？它在桌子的什么位置？它能被抓取嗎？”她在為AI提供一雙精準的眼睛和一副空間刻度尺。

· 楊立昆（哲學家視角）：建模的是“物理邏輯”。他不關心像素級別的還原，他關心因果。他在想“如果我推了一下這個杯子，它會不會碎？”他在為AI構建邏輯思維和長期規劃能力，即所謂的“數字心智”。

維度二|成熟度與商業落地

這是三者路線差異最顯著的地方，簡而言之就是英偉達已經在收割（變現），李飛飛正在沖刺（產品化），楊立昆還在打地基（科研期）。

· 英偉達：基建之王的“算力飛輪”。落地實體是Cosmos平臺，深度集成于Isaac Sim機器人仿真系統和Omniverse數字孿生平臺。成熟度極高，這不是PPT而是已經跑通的工業管線。其Cosmos工具鏈已有約200萬次下載。包括亞馬遜倉儲機器人優化、寶馬數字化工廠都有應用，客戶中不乏西門子等工業巨頭。它的商業邏輯很霸道，通過賣仿真軟件（軟件訂閱）帶動GPU算力的銷售，形成了完美的“基建閉環”。

· 李飛飛：從實驗室到創意工場的“閃電戰”。落地實體是商業化平臺Marble，已經于2025年11月上線。成熟度中等偏上，是目前最快將“世界模型”轉化為C端/B端可感知產品的公司。李飛飛的World Labs已經拿到了10億美元的估值，背后的投資方、CAD巨頭Autodesk是其核心盟友。Marble平臺允許設計師、游戲開發者通過文字或圖片一鍵生成可編輯、可漫游的3D世界。這意味著它的首批“買單人”正是內容創作、建筑設計和虛擬影視從業者。

· 楊立昆：仍處技術探索的深水區。落地實體是Meta內部的V-JEPA和I-JEPA系列研究模型。成熟度屬于早期科研態，楊立昆坦言真正的產品可能還需要數年時間。目前AMI Labs沒有外部商業客戶，更多是通往AGI的技術儲備。它更像是一場對現有Transformer架構模型的“拆遷重建”，雖然其研究在學術界引起巨大反響，但在商業變現上，它還是一個“遠期愿景”。

維度三|時間表的博弈：誰的下一段增長最確定？

成熟度看的是"誰已經走得最遠"，而這里要看的是另一個問題：誰的下一段增長最確定？一個已經在賺錢的平臺，不代表它的增長前景就一定比一個剛上線的新產品更清晰。關鍵在于市場需求的明確程度和護城河的持久性。

· 李飛飛（短期）：任務定義最清晰。空間智能是剛需，無論是虛擬現實（VR/AR）還是3D設計，其產品路徑最直，商業化節奏也最快。

· 英偉達（中期）：立足防御。仿真平臺雖然已經大規模使用，但隨著真實物理數據（如無人機、自動駕駛真車數據）的指數級增長，其作為“唯一合成數據源”的護城河正面臨挑戰。英偉達必須持續迭代，保持仿真的不可替代性。

· 楊立昆（長期）：AGI底層大考。他要解決的是AI的“常識”和“推理”。其中提到的“篩選機制”在目前的AI架構中幾乎是空白，這不僅是技術的博弈，更是對AGI底層架構的十年大考。

維度四|技術哲學的沖突：規模vs. 規則vs. 認知

這三者之間的哲學理念也完全不同：

· 英偉達傾向于“暴力美學”：只要仿真環境夠多、GPU堆得夠高，智能就會在大規模模擬中“涌現”。

· 李飛飛堅持“感知優先”：如果AI連3D空間和物體的“可供性”都搞不清楚，所謂的智能只是概率預測下的幻覺。

· 楊立昆則是“架構至上”：他直言目前的模型只是高級的“復讀機”。如果不引入因果推理和真正的規劃，再多的數據也造不出像人一樣的智慧。

五、總結：三條賽道，一幅版圖

“世界模型”不是一個單一的概念，而是三個完全不同的賽道。將這三者混為一談，就像是把“造發動機的”、“造輪胎的”和“修路的”都統稱為“造車的”。

正如馬爾帕尼犀利指出的那樣，雖然大家都在蓋“世界模型”的大樓，但他們蓋的根本不是同一棟建筑。把它們混為一談，不僅會催生不必要的行業泡沫，更會讓我們看不清真正的價值到底在何處積累。

AI行業在不斷突破，而在這場狂飆中看清路線尤為重要。當下，如果你關心的是如何大規模訓練機器人，看英偉達；如果你關心的是如何讓AI真正理解并進入我們的3D生活空間，看李飛飛；如果你關心的是AI什么時候能擁有像人一樣的邏輯推理和規劃能力，看楊立昆。

與其說他們在競爭，不如說他們各自在解決"讓機器理解物理世界"這個大問題中的不同子問題。英偉達解決的是"在哪里練"，李飛飛解決的是"看到什么"，楊立昆解決的是"怎么想"。這三條路線能不能最終匯合成通往AGI 的完整路徑，現在還沒有人知道。但至少，把它們分清楚，是看懂這場競賽的第一步，也是不被"世界模型"這個詞忽悠的第一步。。