![]()
來源:量子位 | 公眾號(hào) QbitAI
Jay 發(fā)自 凹非寺
AGI之路,終于交匯到了世界模型的戰(zhàn)場。
李飛飛,發(fā)布了旗下首款商用世界模型Marble;
幾乎同一時(shí)間,Lecun離職Meta,準(zhǔn)備創(chuàng)立自己的世界模型公司;
在此之前,谷歌旗下的世界模型Genie 3,也曾掀起業(yè)界轟動(dòng)。
AI界三股大佬力量,雖然同樣進(jìn)軍世界模型,卻意味著三種截然不同的技術(shù)路線賭注——
世界模型之爭
李飛飛剛剛為空間智能舉大旗的萬字長文發(fā)布,她旗下的創(chuàng)業(yè)公司W(wǎng)orld Labs,就緊鑼密鼓推出了首款商用世界模型Marble。
![]()
業(yè)界普遍認(rèn)為Marble有商業(yè)化潛力,是因?yàn)?strong>它生成的是持久的、可下載的3D環(huán)境。
團(tuán)隊(duì)表示,這種方式能顯著減少場景變形和細(xì)節(jié)不一致的問題,而且還能把生成的世界導(dǎo)出成高斯斑點(diǎn)、Mesh網(wǎng)格,甚至直接導(dǎo)出視頻。
更進(jìn)一步,Marble還內(nèi)置一個(gè)原生的AI世界編輯器Chisel,用戶只需一句提示,就能按自己的想法自由改造世界。
![]()
對(duì)于做VR或游戲的開發(fā)者來說,「一句提示→直接生成3D世界→一鍵導(dǎo)出到Unity」這樣的鏈路,非常有幫助。
然而,Hacker News的一名機(jī)器學(xué)習(xí)工程師指出,比起所謂的世界模型,Marble看起來更像是一個(gè)單純的3D渲染模型。
這難道不就是高斯Splat模型嗎?我在AI行業(yè)干了這么久,到現(xiàn)在都還是搞不明白「世界模型」里的「世界」究竟指什么。
Reddit網(wǎng)友的說法則更加直接:
用高斯散射、深度和圖像修復(fù)把圖片轉(zhuǎn)成3D環(huán)境,確實(shí)很酷,但這就是一套3D高斯生成流水線,不是機(jī)器人的大腦。
這里的高斯?jié)姙R,指的是近幾年3D建模里最火的一類新技術(shù)。
它把一個(gè)場景表示成成千上萬個(gè)漂浮在空間中的彩色模糊小斑點(diǎn)(也就是高斯),再把這些斑點(diǎn)「潑濺」到屏幕上,讓它們自然融合成一張圖像。
可以這么理解:高斯就像一個(gè)漂浮在三維空間里、半透明、帶光暈、邊緣柔軟的小氣泡。
單個(gè)氣泡當(dāng)然軟乎乎的成不了形,但如果成千上萬個(gè)這樣的氣泡聚在一起,再從不同角度渲染出來,就能組合出一幅精美的三維畫面。
這樣做,不需要像傳統(tǒng)攝影測(cè)量那樣走復(fù)雜的建模流程,雖然犧牲了一些精度,但速度極快,而且操作更輕松。
Marble采取的正是這樣一種路徑。
然而,這也意味著,Marble可能并不是大家想的那種、可以直接用于機(jī)器人訓(xùn)練的「世界模型」。
Marble確實(shí)構(gòu)建了一個(gè)完整世界,但我們看到的其實(shí)只是一個(gè)能被渲染器直接轉(zhuǎn)成像素的視圖。
換句話說,它捕捉的是「表面是什么樣子」,而并沒有內(nèi)置「這個(gè)世界為什么會(huì)這樣運(yùn)作」的物理規(guī)律。
這對(duì)于人來說是完全夠用了,但對(duì)于機(jī)器人來說,重要的其實(shí)不是這些視覺信息,而是背后的因果結(jié)構(gòu)——
比如,一放在斜坡上的球會(huì)滾下來,這對(duì)人類來說是看一眼就懂的事;
但機(jī)器人想做出類似判斷,還需要質(zhì)量、摩擦、速度……這些信息在Marble里根本不存在。
或許正是因?yàn)槿绱耍贛arble自己的博客上,雖然屢屢提及「世界模型」與「導(dǎo)出高斯散射體、網(wǎng)格和視頻」,但幾乎完全沒有提到機(jī)器人。
不過在商業(yè)化層面,Marble明顯更具優(yōu)勢(shì)。
相比起被AI圈熱議的那類、可孕育具身智能世界模型,Marble已經(jīng)不是一個(gè)遙遠(yuǎn)的概念,而是一款能夠立刻融入游戲開發(fā)者日常工作流程的實(shí)用工具。
但這也不禁令人有些黯然,難道那條能通往AGI的「世界模型」之路,只是個(gè)噱頭嗎?
當(dāng)然不是。
確實(shí)存在能與機(jī)器人真正互動(dòng)的世界模型,比如——LeCun的JEPA。
LeCun理解的「世界模型」,根子并不在3D圖形學(xué),而是在控制理論和認(rèn)知科學(xué)。
它不需要輸出漂亮的畫面,因?yàn)槟愀尽缚床坏健惯@種世界模型。
這類世界模型的任務(wù),不是渲染精美的像素,是讓機(jī)器人能提前想幾步,學(xué)會(huì)在行動(dòng)前預(yù)判世界的變化。
JEPA走的正是這條路——
LeCun認(rèn)為,對(duì)于AI來說,只有中間那個(gè)抽象表征才重要,模型沒必要浪費(fèi)算力去生成像素,只需專注于捕捉那些能用于AI決策的世界狀態(tài)。
所以,這類模型雖然沒法像Marble那樣生成精致的3D圖像,看上去不那么「驚艷」,但它更像是在訓(xùn)練機(jī)器人的「大腦」。
其優(yōu)勢(shì)在于對(duì)世界更本質(zhì)的理解,因此,更適合作為機(jī)器人的健身房。
這么一對(duì)比,李飛飛和LeCun在「世界模型」上的路線幾乎南轅北轍——
前者做的是一個(gè)前端資產(chǎn)生成器;后者則更像一個(gè)后端預(yù)測(cè)系統(tǒng)。
而在這二位神仙打架的中間,還站著一位科技巨頭——谷歌。
今年8月,谷歌DeepMind推出了新版世界模型,這就是Genie 3。
只需一句Prompt,模型就能生成一個(gè)可交互的視頻環(huán)境,用戶可以在其中自由探索數(shù)分鐘。
![]()
最令人印象深刻的是,Genie 3首次在這一類模型中解決了長時(shí)一致性的問題——不會(huì)再出現(xiàn)那種「轉(zhuǎn)個(gè)身整棟樓消失」的狀況。
同時(shí),它還支持觸發(fā)世界事件,比如「開始下雨」「夜幕降臨」等,整個(gè)過程就像一款由模型而非傳統(tǒng)引擎驅(qū)動(dòng)的電子游戲。
不過,Genie應(yīng)該更像一款「世界模型式視頻生成器」。
盡管Genie 3讓「世界動(dòng)了起來」,它的核心仍然是視頻邏輯,而非JEPA那種基于物理和因果的邏輯。
也就是說,它雖然可以生成動(dòng)態(tài)畫面,但也不能完全「理解」這些畫面背后的物理規(guī)律。
依然可以用于機(jī)器人訓(xùn)練,但不如JEPA那樣直擊本質(zhì)。
與此同時(shí),畫面質(zhì)量和分辨率也有限,難以與Marble那種高精度、可導(dǎo)出的3D資產(chǎn)相提并論。
綜上來看,三種「世界模型」雖然都在描繪「世界」,但理解路徑完全不同,也因此各有千秋——
Marble渲染「世界長什么樣」,Genie 3展示「世界怎么變」,JEPA則探究「世界的結(jié)構(gòu)是什么」。
而市面上幾乎所有的「世界模型」,大致也都可歸入這三種范式:
世界模型金字塔 第一種:世界模型即界面
以Marble為代表,它讓人們能夠從文字或二維素材,直接生成可編輯、可分享的三維環(huán)境。
在這種模式下,「世界」是呈現(xiàn)在VR頭顯、顯示器或電腦屏幕上的那片可供人觀看與游走的空間。
第二種:世界模型即模擬器:
以Genie3為代表,這類模型能生成連續(xù)、可控制的視頻式世界,讓智能體在其中反復(fù)嘗試、失敗、再嘗試。
像SIMA 2這樣的智能體,便可把這類世界當(dāng)作「虛擬健身房」。
第三種:世界模型即認(rèn)知框架
以JEPA為代表,這是一種高度抽象的形式,沒有像前兩種一樣可供人欣賞的畫面。
在這里,關(guān)注點(diǎn)不在于渲染,「世界」以潛在變量和狀態(tài)轉(zhuǎn)移函數(shù)的形式呈現(xiàn),可以說是機(jī)器人完美的訓(xùn)練基地。
![]()
在智源學(xué)者趙昊看來,其實(shí)可以將三者拼裝為一個(gè)「世界模型金字塔」——
自下而上依次是李飛飛、Genie 3、Lecun。
站在地面仰望這座金字塔:
越往上,模型越抽象、也越貼近AI的思維方式,因此更適合用于機(jī)器人訓(xùn)練與推理;
越往下,模型在外觀、交互與可視化等方面對(duì)人類來說更真實(shí),但卻更難被機(jī)器人理解。
參考鏈接:
[1]https://entropytown.com/articles/2025-11-13-world-model-lecun-feifei-li/
[2]https://mp.weixin.qq.com/s/D7G3S_AIfzQfITgqXIKQAg
閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問歐米伽研究所的“未來知識(shí)庫”
https://wx.zsxq.com/group/454854145828
![]()
未來知識(shí)庫是“ 歐米伽 未來研究所”建立的在線知識(shí)庫平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢(shì)。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.