在當下的AI圈,“世界模型”幾乎是最熱的詞之一。
李飛飛在講,楊立昆在講,英偉達也直接把它做成了產品。可問題恰恰在這里,同樣叫“世界模型”,他們說的其實不是同一種東西。
英偉達想做的是能批量生成物理環境的仿真基礎設施,李飛飛押注的是讓機器真正理解三維空間和物體關系的空間智能,楊立昆追求的則是能夠進行因果推理和長期規劃的認知架構。
![]()
也就是說,外界口中的“世界模型”并不是一條統一的技術路線,如果你分不清,就很容易看不懂,為什么英偉達能先賺錢,為什么李飛飛更容易產品化,又為什么楊立昆的路線最遠也最難。
而這股熱潮已經不只是海外巨頭的游戲。光是2026年4月,小鵬、阿里、騰訊就接連發布了各自的"世界模型",國內玩家也在加速入場。但在跟風之前,更值得搞清楚的是:這個詞背后的路線之爭,到底在爭什么?
一、英偉達Cosmos:工業級的“創世引擎”
英偉達的路線可以被總結為仿真基礎設施(Simulation Infrastructure)。對于黃仁勛來說,“世界模型”不僅僅是一個理論,它必須是能跑在GPU陣列上的、基于物理規律的數字孿生環境。
![]()
從動機上說,英偉達的“世界模型”是為了彌補“數據貧困”的護城河。
在過去,物理交互數據的稀缺一直是機器人和具身智能發展的瓶頸。人類不可能在現實中讓機器人摔倒一億次來學習走路。英偉達的Cosmos及其背后的仿真體系,其核心邏輯就是利用合成環境(Synthetic Environments)來填補這一空白。
英偉達的目標是建立大規模的、基于物理規律的環境,用于訓練、評估和運行物理AI系統,這主要體現在兩個維度:
· 物理模擬:它建模的是整個物理環境的運行規律,包括重力、摩擦力、碰撞等。
· 規模化生產:這種“合成數據”的生產能力構成了其最明顯的護城河。
盡管戰略分析師兼投資人娜塔莎·馬爾帕尼(Natasha Malpani)認為,隨著機器人公司積累大規模的真實交互數據,這種對仿真的極度依賴(即所謂“數據貧困的產物”)可能會終結,但目前來看英偉達依然穩坐“工業級創世者”的寶座。而且業界主流看法是,真實數據和合成數據是互補而非替代關系,仿真環境在極端場景測試以及安全驗證方面的價值,絕不會因為真實數據的增長而消失殆盡。
二、李飛飛與World Labs:空間智能的“建筑師”
被譽為“AI教母”的李飛飛,其新公司World Labs押注的則是空間智能(Spatial Intelligence)。
![]()
李飛飛的目標是讓機器擁有一個持久且準確的物理空間模型,賦予機器“深度”與“知覺”。這意味著機器需要理解三大核心要素:
· 物體在哪兒:精確的3D位置。
· 它們如何移動:動態的物理軌跡。
· 它們提供了什么“可供性”(Affordance,即物體對使用者所提供行動可能性):例如,一個杯子是可以被抓取的,一張椅子是可以坐下的。
目前,李飛飛的路線被認為是最扎實的。她專注于建模物理世界中的對象及其空間關系。因為這種需求更窄、更可靠,自然也更易于在短期內實現商業化部署。
三、楊立昆與AMI Labs:重構“數字心智”
如果說英偉達在造“環境”,那么圖靈獎得主楊立昆(Yann LeCun)則在嘗試造“大腦”。他通過AMI Labs推進的是一種認知架構(Cognitive Architecture),追求因果而非概率。
![]()
楊立昆認為目前的AI只是在做預測而沒有真正的規劃。他心目中的“世界模型”是一個能夠構建現實的因果模型,并能在此模型內部進行規劃的系統。
AMI Labs的技術路線基于楊立昆提出的JEPA(Joint Embedding Predictive Architecture,聯合嵌入預測架構)。與當前主流大模型逐字預測下一個詞不同,JEPA的核心思路是在抽象的表征空間中預測事物的未來狀態。它不預測下一個像素或下一個詞,而是預測"接下來會發生什么"的整體模式。
為此,楊立昆構想了一個三位一體的架構方案。根據公開報道分析,楊立昆的路線包含三個核心組件,其中第三個在目前看來還堪比外星人的“黑科技”:
· 因果模型:理解世界運作的邏輯,而不僅僅是像素的排列。
· 前向模擬器:在大腦中“預演”各種可能的未來。
· 篩選機制:這是目前最關鍵的一環。它是一種先驗判斷能力,用于決定哪些未來值得模擬、哪些根本不需要考慮。就像一位優秀棋手不會把每一步可能的走法都算一遍,而是直覺性地只關注少數有價值的選項。
這種機制是預測與真正規劃之間的本質區別,目前還沒哪個AI系統能做到這一點,這也是楊立昆路線被認為時間表最長、最難實現的根本原因。
四、深度對壘:三家路線的異同分析
為了更清晰地理解這“三場豪賭”的真實成色,我們不僅要看科學家說了什么,更要看他們做了什么、賣給了誰以及變現路徑在哪里。
維度一|核心定義的差異:你在建模什么?
雖然都叫“世界模型”,但其底層建模的“顆粒度”完全不同:
· 英偉達(上帝視角):建模的是“物理環境”。英偉達關注的是宏觀的物理場,包括重力、摩擦力、流體力學以及復雜的光影反射。如果說AI是個賽車手,英偉達就是那個造賽車場和高精度模擬器的人。
· 李飛飛(建筑師視角):建模的是“物理對象”。她側重于3D視覺和物體的空間屬性。她關心的核心問題是“這個杯子是實心的嗎?它在桌子的什么位置?它能被抓取嗎?”她在為AI提供一雙精準的眼睛和一副空間刻度尺。
· 楊立昆(哲學家視角):建模的是“物理邏輯”。他不關心像素級別的還原,他關心因果。他在想“如果我推了一下這個杯子,它會不會碎?”他在為AI構建邏輯思維和長期規劃能力,即所謂的“數字心智”。
維度二|成熟度與商業落地
這是三者路線差異最顯著的地方,簡而言之就是英偉達已經在收割(變現),李飛飛正在沖刺(產品化),楊立昆還在打地基(科研期)。
· 英偉達:基建之王的“算力飛輪”。落地實體是Cosmos平臺,深度集成于Isaac Sim機器人仿真系統和Omniverse數字孿生平臺。成熟度極高,這不是PPT而是已經跑通的工業管線。其Cosmos工具鏈已有約200萬次下載。包括亞馬遜倉儲機器人優化、寶馬數字化工廠都有應用,客戶中不乏西門子等工業巨頭。它的商業邏輯很霸道,通過賣仿真軟件(軟件訂閱)帶動GPU算力的銷售,形成了完美的“基建閉環”。
· 李飛飛:從實驗室到創意工場的“閃電戰”。落地實體是商業化平臺Marble,已經于2025年11月上線。成熟度中等偏上,是目前最快將“世界模型”轉化為C端/B端可感知產品的公司。李飛飛的World Labs已經拿到了10億美元的估值,背后的投資方、CAD巨頭Autodesk是其核心盟友。Marble平臺允許設計師、游戲開發者通過文字或圖片一鍵生成可編輯、可漫游的3D世界。這意味著它的首批“買單人”正是內容創作、建筑設計和虛擬影視從業者。
· 楊立昆:仍處技術探索的深水區。落地實體是Meta內部的V-JEPA和I-JEPA系列研究模型。成熟度屬于早期科研態,楊立昆坦言真正的產品可能還需要數年時間。目前AMI Labs沒有外部商業客戶,更多是通往AGI的技術儲備。它更像是一場對現有Transformer架構模型的“拆遷重建”,雖然其研究在學術界引起巨大反響,但在商業變現上,它還是一個“遠期愿景”。
維度三|時間表的博弈:誰的下一段增長最確定?
成熟度看的是"誰已經走得最遠",而這里要看的是另一個問題:誰的下一段增長最確定?一個已經在賺錢的平臺,不代表它的增長前景就一定比一個剛上線的新產品更清晰。關鍵在于市場需求的明確程度和護城河的持久性。
· 李飛飛(短期):任務定義最清晰。空間智能是剛需,無論是虛擬現實(VR/AR)還是3D設計,其產品路徑最直,商業化節奏也最快。
· 英偉達(中期):立足防御。仿真平臺雖然已經大規模使用,但隨著真實物理數據(如無人機、自動駕駛真車數據)的指數級增長,其作為“唯一合成數據源”的護城河正面臨挑戰。英偉達必須持續迭代,保持仿真的不可替代性。
· 楊立昆(長期):AGI底層大考。他要解決的是AI的“常識”和“推理”。其中提到的“篩選機制”在目前的AI架構中幾乎是空白,這不僅是技術的博弈,更是對AGI底層架構的十年大考。
維度四|技術哲學的沖突:規模vs. 規則vs. 認知
這三者之間的哲學理念也完全不同:
· 英偉達傾向于“暴力美學”:只要仿真環境夠多、GPU堆得夠高,智能就會在大規模模擬中“涌現”。
· 李飛飛堅持“感知優先”:如果AI連3D空間和物體的“可供性”都搞不清楚,所謂的智能只是概率預測下的幻覺。
· 楊立昆則是“架構至上”:他直言目前的模型只是高級的“復讀機”。如果不引入因果推理和真正的規劃,再多的數據也造不出像人一樣的智慧。
五、總結:三條賽道,一幅版圖
“世界模型”不是一個單一的概念,而是三個完全不同的賽道。將這三者混為一談,就像是把“造發動機的”、“造輪胎的”和“修路的”都統稱為“造車的”。
正如馬爾帕尼犀利指出的那樣,雖然大家都在蓋“世界模型”的大樓,但他們蓋的根本不是同一棟建筑。把它們混為一談,不僅會催生不必要的行業泡沫,更會讓我們看不清真正的價值到底在何處積累。
![]()
AI行業在不斷突破,而在這場狂飆中看清路線尤為重要。當下,如果你關心的是如何大規模訓練機器人,看英偉達;如果你關心的是如何讓AI真正理解并進入我們的3D生活空間,看李飛飛;如果你關心的是AI什么時候能擁有像人一樣的邏輯推理和規劃能力,看楊立昆。
與其說他們在競爭,不如說他們各自在解決"讓機器理解物理世界"這個大問題中的不同子問題。英偉達解決的是"在哪里練",李飛飛解決的是"看到什么",楊立昆解決的是"怎么想"。這三條路線能不能最終匯合成通往AGI 的完整路徑,現在還沒有人知道。但至少,把它們分清楚,是看懂這場競賽的第一步,也是不被"世界模型"這個詞忽悠的第一步。。
