在當下的AI圈,“世界模型”幾乎是最熱的詞之一。
李飛飛在講,楊立昆在講,英偉達也直接把它做成了產(chǎn)品。可問題恰恰在這里,同樣叫“世界模型”,他們說的其實不是同一種東西。
英偉達想做的是能批量生成物理環(huán)境的仿真基礎(chǔ)設(shè)施,李飛飛押注的是讓機器真正理解三維空間和物體關(guān)系的空間智能,楊立昆追求的則是能夠進行因果推理和長期規(guī)劃的認知架構(gòu)。
![]()
也就是說,外界口中的“世界模型”并不是一條統(tǒng)一的技術(shù)路線,如果你分不清,就很容易看不懂,為什么英偉達能先賺錢,為什么李飛飛更容易產(chǎn)品化,又為什么楊立昆的路線最遠也最難。
而這股熱潮已經(jīng)不只是海外巨頭的游戲。光是2026年4月,小鵬、阿里、騰訊就接連發(fā)布了各自的"世界模型",國內(nèi)玩家也在加速入場。但在跟風(fēng)之前,更值得搞清楚的是:這個詞背后的路線之爭,到底在爭什么?
一、英偉達Cosmos:工業(yè)級的“創(chuàng)世引擎”
英偉達的路線可以被總結(jié)為仿真基礎(chǔ)設(shè)施(Simulation Infrastructure)。對于黃仁勛來說,“世界模型”不僅僅是一個理論,它必須是能跑在GPU陣列上的、基于物理規(guī)律的數(shù)字孿生環(huán)境。
![]()
從動機上說,英偉達的“世界模型”是為了彌補“數(shù)據(jù)貧困”的護城河。
在過去,物理交互數(shù)據(jù)的稀缺一直是機器人和具身智能發(fā)展的瓶頸。人類不可能在現(xiàn)實中讓機器人摔倒一億次來學(xué)習(xí)走路。英偉達的Cosmos及其背后的仿真體系,其核心邏輯就是利用合成環(huán)境(Synthetic Environments)來填補這一空白。
英偉達的目標是建立大規(guī)模的、基于物理規(guī)律的環(huán)境,用于訓(xùn)練、評估和運行物理AI系統(tǒng),這主要體現(xiàn)在兩個維度:
· 物理模擬:它建模的是整個物理環(huán)境的運行規(guī)律,包括重力、摩擦力、碰撞等。
· 規(guī)模化生產(chǎn):這種“合成數(shù)據(jù)”的生產(chǎn)能力構(gòu)成了其最明顯的護城河。
盡管戰(zhàn)略分析師兼投資人娜塔莎·馬爾帕尼(Natasha Malpani)認為,隨著機器人公司積累大規(guī)模的真實交互數(shù)據(jù),這種對仿真的極度依賴(即所謂“數(shù)據(jù)貧困的產(chǎn)物”)可能會終結(jié),但目前來看英偉達依然穩(wěn)坐“工業(yè)級創(chuàng)世者”的寶座。而且業(yè)界主流看法是,真實數(shù)據(jù)和合成數(shù)據(jù)是互補而非替代關(guān)系,仿真環(huán)境在極端場景測試以及安全驗證方面的價值,絕不會因為真實數(shù)據(jù)的增長而消失殆盡。
二、李飛飛與World Labs:空間智能的“建筑師”
被譽為“AI教母”的李飛飛,其新公司W(wǎng)orld Labs押注的則是空間智能(Spatial Intelligence)。
![]()
李飛飛的目標是讓機器擁有一個持久且準確的物理空間模型,賦予機器“深度”與“知覺”。這意味著機器需要理解三大核心要素:
· 物體在哪兒:精確的3D位置。
· 它們?nèi)绾我苿?/b>:動態(tài)的物理軌跡。
· 它們提供了什么“可供性”(Affordance,即物體對使用者所提供行動可能性):例如,一個杯子是可以被抓取的,一張椅子是可以坐下的。
目前,李飛飛的路線被認為是最扎實的。她專注于建模物理世界中的對象及其空間關(guān)系。因為這種需求更窄、更可靠,自然也更易于在短期內(nèi)實現(xiàn)商業(yè)化部署。
三、楊立昆與AMI Labs:重構(gòu)“數(shù)字心智”
如果說英偉達在造“環(huán)境”,那么圖靈獎得主楊立昆(Yann LeCun)則在嘗試造“大腦”。他通過AMI Labs推進的是一種認知架構(gòu)(Cognitive Architecture),追求因果而非概率。
![]()
楊立昆認為目前的AI只是在做預(yù)測而沒有真正的規(guī)劃。他心目中的“世界模型”是一個能夠構(gòu)建現(xiàn)實的因果模型,并能在此模型內(nèi)部進行規(guī)劃的系統(tǒng)。
AMI Labs的技術(shù)路線基于楊立昆提出的JEPA(Joint Embedding Predictive Architecture,聯(lián)合嵌入預(yù)測架構(gòu))。與當前主流大模型逐字預(yù)測下一個詞不同,JEPA的核心思路是在抽象的表征空間中預(yù)測事物的未來狀態(tài)。它不預(yù)測下一個像素或下一個詞,而是預(yù)測"接下來會發(fā)生什么"的整體模式。
為此,楊立昆構(gòu)想了一個三位一體的架構(gòu)方案。根據(jù)公開報道分析,楊立昆的路線包含三個核心組件,其中第三個在目前看來還堪比外星人的“黑科技”:
· 因果模型:理解世界運作的邏輯,而不僅僅是像素的排列。
· 前向模擬器:在大腦中“預(yù)演”各種可能的未來。
· 篩選機制:這是目前最關(guān)鍵的一環(huán)。它是一種先驗判斷能力,用于決定哪些未來值得模擬、哪些根本不需要考慮。就像一位優(yōu)秀棋手不會把每一步可能的走法都算一遍,而是直覺性地只關(guān)注少數(shù)有價值的選項。
這種機制是預(yù)測與真正規(guī)劃之間的本質(zhì)區(qū)別,目前還沒哪個AI系統(tǒng)能做到這一點,這也是楊立昆路線被認為時間表最長、最難實現(xiàn)的根本原因。
四、深度對壘:三家路線的異同分析
為了更清晰地理解這“三場豪賭”的真實成色,我們不僅要看科學(xué)家說了什么,更要看他們做了什么、賣給了誰以及變現(xiàn)路徑在哪里。
維度一|核心定義的差異:你在建模什么?
雖然都叫“世界模型”,但其底層建模的“顆粒度”完全不同:
· 英偉達(上帝視角):建模的是“物理環(huán)境”。英偉達關(guān)注的是宏觀的物理場,包括重力、摩擦力、流體力學(xué)以及復(fù)雜的光影反射。如果說AI是個賽車手,英偉達就是那個造賽車場和高精度模擬器的人。
· 李飛飛(建筑師視角):建模的是“物理對象”。她側(cè)重于3D視覺和物體的空間屬性。她關(guān)心的核心問題是“這個杯子是實心的嗎?它在桌子的什么位置?它能被抓取嗎?”她在為AI提供一雙精準的眼睛和一副空間刻度尺。
· 楊立昆(哲學(xué)家視角):建模的是“物理邏輯”。他不關(guān)心像素級別的還原,他關(guān)心因果。他在想“如果我推了一下這個杯子,它會不會碎?”他在為AI構(gòu)建邏輯思維和長期規(guī)劃能力,即所謂的“數(shù)字心智”。
維度二|成熟度與商業(yè)落地
這是三者路線差異最顯著的地方,簡而言之就是英偉達已經(jīng)在收割(變現(xiàn)),李飛飛正在沖刺(產(chǎn)品化),楊立昆還在打地基(科研期)。
· 英偉達:基建之王的“算力飛輪”。落地實體是Cosmos平臺,深度集成于Isaac Sim機器人仿真系統(tǒng)和Omniverse數(shù)字孿生平臺。成熟度極高,這不是PPT而是已經(jīng)跑通的工業(yè)管線。其Cosmos工具鏈已有約200萬次下載。包括亞馬遜倉儲機器人優(yōu)化、寶馬數(shù)字化工廠都有應(yīng)用,客戶中不乏西門子等工業(yè)巨頭。它的商業(yè)邏輯很霸道,通過賣仿真軟件(軟件訂閱)帶動GPU算力的銷售,形成了完美的“基建閉環(huán)”。
· 李飛飛:從實驗室到創(chuàng)意工場的“閃電戰(zhàn)”。落地實體是商業(yè)化平臺Marble,已經(jīng)于2025年11月上線。成熟度中等偏上,是目前最快將“世界模型”轉(zhuǎn)化為C端/B端可感知產(chǎn)品的公司。李飛飛的World Labs已經(jīng)拿到了10億美元的估值,背后的投資方、CAD巨頭Autodesk是其核心盟友。Marble平臺允許設(shè)計師、游戲開發(fā)者通過文字或圖片一鍵生成可編輯、可漫游的3D世界。這意味著它的首批“買單人”正是內(nèi)容創(chuàng)作、建筑設(shè)計和虛擬影視從業(yè)者。
· 楊立昆:仍處技術(shù)探索的深水區(qū)。落地實體是Meta內(nèi)部的V-JEPA和I-JEPA系列研究模型。成熟度屬于早期科研態(tài),楊立昆坦言真正的產(chǎn)品可能還需要數(shù)年時間。目前AMI Labs沒有外部商業(yè)客戶,更多是通往AGI的技術(shù)儲備。它更像是一場對現(xiàn)有Transformer架構(gòu)模型的“拆遷重建”,雖然其研究在學(xué)術(shù)界引起巨大反響,但在商業(yè)變現(xiàn)上,它還是一個“遠期愿景”。
維度三|時間表的博弈:誰的下一段增長最確定?
成熟度看的是"誰已經(jīng)走得最遠",而這里要看的是另一個問題:誰的下一段增長最確定?一個已經(jīng)在賺錢的平臺,不代表它的增長前景就一定比一個剛上線的新產(chǎn)品更清晰。關(guān)鍵在于市場需求的明確程度和護城河的持久性。
· 李飛飛(短期):任務(wù)定義最清晰。空間智能是剛需,無論是虛擬現(xiàn)實(VR/AR)還是3D設(shè)計,其產(chǎn)品路徑最直,商業(yè)化節(jié)奏也最快。
· 英偉達(中期):立足防御。仿真平臺雖然已經(jīng)大規(guī)模使用,但隨著真實物理數(shù)據(jù)(如無人機、自動駕駛真車數(shù)據(jù))的指數(shù)級增長,其作為“唯一合成數(shù)據(jù)源”的護城河正面臨挑戰(zhàn)。英偉達必須持續(xù)迭代,保持仿真的不可替代性。
· 楊立昆(長期):AGI底層大考。他要解決的是AI的“常識”和“推理”。其中提到的“篩選機制”在目前的AI架構(gòu)中幾乎是空白,這不僅是技術(shù)的博弈,更是對AGI底層架構(gòu)的十年大考。
維度四|技術(shù)哲學(xué)的沖突:規(guī)模vs. 規(guī)則vs. 認知
這三者之間的哲學(xué)理念也完全不同:
· 英偉達傾向于“暴力美學(xué)”:只要仿真環(huán)境夠多、GPU堆得夠高,智能就會在大規(guī)模模擬中“涌現(xiàn)”。
· 李飛飛堅持“感知優(yōu)先”:如果AI連3D空間和物體的“可供性”都搞不清楚,所謂的智能只是概率預(yù)測下的幻覺。
· 楊立昆則是“架構(gòu)至上”:他直言目前的模型只是高級的“復(fù)讀機”。如果不引入因果推理和真正的規(guī)劃,再多的數(shù)據(jù)也造不出像人一樣的智慧。
五、總結(jié):三條賽道,一幅版圖
“世界模型”不是一個單一的概念,而是三個完全不同的賽道。將這三者混為一談,就像是把“造發(fā)動機的”、“造輪胎的”和“修路的”都統(tǒng)稱為“造車的”。
正如馬爾帕尼犀利指出的那樣,雖然大家都在蓋“世界模型”的大樓,但他們蓋的根本不是同一棟建筑。把它們混為一談,不僅會催生不必要的行業(yè)泡沫,更會讓我們看不清真正的價值到底在何處積累。
![]()
AI行業(yè)在不斷突破,而在這場狂飆中看清路線尤為重要。當下,如果你關(guān)心的是如何大規(guī)模訓(xùn)練機器人,看英偉達;如果你關(guān)心的是如何讓AI真正理解并進入我們的3D生活空間,看李飛飛;如果你關(guān)心的是AI什么時候能擁有像人一樣的邏輯推理和規(guī)劃能力,看楊立昆。
與其說他們在競爭,不如說他們各自在解決"讓機器理解物理世界"這個大問題中的不同子問題。英偉達解決的是"在哪里練",李飛飛解決的是"看到什么",楊立昆解決的是"怎么想"。這三條路線能不能最終匯合成通往AGI 的完整路徑,現(xiàn)在還沒有人知道。但至少,把它們分清楚,是看懂這場競賽的第一步,也是不被"世界模型"這個詞忽悠的第一步。。
