AI很會(huì)說(shuō)話(huà),但還不會(huì)理解世界。
前幾天,Google的Gemini 3 Pro發(fā)布,朋友圈瞬間刷屏。很多人都在感嘆:谷歌一出手,就知有沒(méi)有。下一代模型,是不是參數(shù)更多?能支持更長(zhǎng)的上下文?照這么發(fā)展下去,是不是真的要實(shí)現(xiàn)AGI(通用人工智能)了?
但是,著名計(jì)算機(jī)科學(xué)家、美國(guó)國(guó)家工程院院士、斯坦福大學(xué)教授李飛飛卻不這么認(rèn)為。11月10日,她就發(fā)布了一則長(zhǎng)文,系統(tǒng)闡述了她對(duì)目前AI大模型的看法。總結(jié)一下,大概是:
目前AI卷參數(shù),卷算法的方向,可能跑偏了。模型不理解世界,就實(shí)現(xiàn)不了真正的智能。
為什么這么說(shuō)?什么又叫“理解世界”?這和我又有什么關(guān)系?
系統(tǒng)整理了一下我的理解,和你分享。
01
大語(yǔ)言模型,就像讀了很多書(shū),但沒(méi)出過(guò)門(mén)的秀才
你一定知道ChatGPT,或者谷歌的Gemini。你也一定用過(guò)DeepSeek、豆包。這些產(chǎn)品背后的核心技術(shù),都是大語(yǔ)言模型(LLM)。
大語(yǔ)言模型做的事情,簡(jiǎn)單來(lái)說(shuō),是“預(yù)測(cè)下一個(gè)詞是什么”。你問(wèn)它,“床前明月光”,它就能預(yù)測(cè),后邊幾個(gè)詞大概率是“疑是地上霜”。
靠著這種看似簡(jiǎn)單的“接茬”能力,在吃下了大量數(shù)據(jù)之后,大模型已經(jīng)進(jìn)化到了驚人的地步。它能通過(guò)律師資格考試,也能做復(fù)雜的奧數(shù)題。
那,這樣子下去,是不是很快就有能自主學(xué)習(xí)、完成任務(wù)的通用人工智能了?
不一定。雖然語(yǔ)言大模型看上去很厲害,但如果問(wèn)它一些特別簡(jiǎn)單的問(wèn)題,比如,這輛車(chē)離那棵樹(shù)有幾米?這個(gè)箱子能塞進(jìn)后備箱嗎?它卻大概率會(huì)瞎蒙,還會(huì)出現(xiàn)“杯子松手后飛上天”的情況。
它們雖然懂物理公式,卻不懂物理常識(shí)。對(duì)此,李飛飛打了個(gè)比方。大概意思是,大語(yǔ)言模型,就像黑暗中的秀才(wordsmiths in the dark)。
想象一下。有一位秀才,在一間黑屋子里,讀過(guò)一萬(wàn)本關(guān)于蘋(píng)果的書(shū)。他知道,蘋(píng)果通常和“紅”、“甜”、“圓”出現(xiàn)在一起,他知道,蘋(píng)果的化學(xué)分子式,牛頓被蘋(píng)果砸中的故事。如果讓他寫(xiě)一篇關(guān)于蘋(píng)果的論文,他寫(xiě)得不比專(zhuān)家差。但是,如果你把一個(gè)真的蘋(píng)果遞到他手里,他卻不知道這是什么。
今天,語(yǔ)言大模型的“智慧”,本質(zhì)上靠的是語(yǔ)言的統(tǒng)計(jì)規(guī)律,而并非扎根現(xiàn)實(shí)。
這也解釋了,為什么你的AI助手,動(dòng)不動(dòng)就會(huì)“胡說(shuō)八道”。因?yàn)椋绻鸄I只遵照語(yǔ)法通順,它完全可以認(rèn)為,太陽(yáng)會(huì)從西邊升起。即便這在物理世界里,不可能發(fā)生。
它讀了萬(wàn)卷書(shū),卻從未行萬(wàn)里路。
02
語(yǔ)言可以瞎編,但物理世界不會(huì)撒謊
那怎么辦?
李飛飛說(shuō),這就要讓AI,掌握“空間智能”了。
舉個(gè)例子。喝咖啡。
你的大腦在這一瞬間,會(huì)處理很多信息。你的眼睛,要判斷杯子和嘴邊的距離;你的手部肌肉,要根據(jù)杯子的重量,精確調(diào)整抓握的力度;你的皮膚,要感知杯壁的溫度,防止?fàn)C傷;你的手腕,要配合身體的傾斜,保持杯口的水平,防止咖啡灑出來(lái)。
在這個(gè)過(guò)程中,你用到語(yǔ)言了嗎?你有沒(méi)有在心里默念,把肱二頭肌收縮30%,手腕向左旋轉(zhuǎn)5度?沒(méi)有。整個(gè)過(guò)程,靠的是感知、想象、行動(dòng)。
這種“不通過(guò)語(yǔ)言,理解物理世界,和物理世界互動(dòng)的能力”,就是空間智能。
而李飛飛也認(rèn)為,有了空間智能加持的AI,才會(huì)通向真正的,智能。因?yàn)橹悄艿谋举|(zhì),是能在不確定的世界中持續(xù)預(yù)測(cè)、行動(dòng)、達(dá)成目標(biāo)。這不能靠大腦憑空產(chǎn)生。
舉個(gè)例子。嬰兒是怎么知道因果關(guān)系的?
他坐在地上,把積木推倒,積木嘩啦一下散落在了地上。他覺(jué)得好玩,又推了一次。又是嘩啦一聲。一次次的物理互動(dòng)中,他逐漸建立了一條神經(jīng)連接:把積木推倒,必然導(dǎo)致“嘩啦”一聲。邏輯的雛形,因此開(kāi)始。
再舉個(gè)例子。沃森和克里克,是怎么發(fā)現(xiàn)DNA雙螺旋結(jié)構(gòu)的?
要知道,當(dāng)時(shí)他們手里,只有一張像是模糊的“X”的照片。靠這張照片,推導(dǎo)不出DNA結(jié)構(gòu)。
![]()
沒(méi)辦法,他們只好像搭積木的小孩一樣,用金屬棒和鐵絲,試圖復(fù)現(xiàn)DNA的空間結(jié)構(gòu)。直到某個(gè)瞬間,他們把模型轉(zhuǎn)到雙螺旋的角度,咔嚓一聲,一切都對(duì)上了。那一刻,他們沒(méi)有說(shuō)話(huà),但他們看到了生命的真相。
![]()
偉大的發(fā)現(xiàn),往往先在空間中成型,才被翻譯成語(yǔ)言。
所以,李飛飛才會(huì)說(shuō):“看”和“動(dòng)”,不是低級(jí)的本能,而是高級(jí)智能的基石。大自然花了 5 億年進(jìn)化“視覺(jué)”,只花了最后幾萬(wàn)年進(jìn)化“語(yǔ)言”。因?yàn)楦兄澜纾h(yuǎn)比描述世界要難得多,也重要得多。
語(yǔ)言可以瞎編,但物理世界不會(huì)撒謊。
03
AI的未來(lái),或許是從預(yù)測(cè)下一個(gè)詞,到預(yù)測(cè)下一幀世界
什么是,預(yù)測(cè)下一幀世界?舉個(gè)例子。
你手里拿著一個(gè)玻璃杯,然后松開(kāi)了手。現(xiàn)在,你的腦子里是不是立刻就預(yù)測(cè)到了:杯子掉下去,砸在地上,摔碎了?你不需要等它真的碎,你的腦子已經(jīng)預(yù)測(cè)到了。
這就是“預(yù)測(cè)下一幀世界”。擁有了這個(gè)能力,AI不需要讀萬(wàn)卷書(shū)來(lái)記住“火是燙的”,模擬與世界的互動(dòng),就能推導(dǎo)出“手伸進(jìn)火里->皮膚燒傷”的物理必然性。
預(yù)測(cè)下一個(gè)詞,遵循的是“語(yǔ)法邏輯”;而預(yù)測(cè)下一幀世界,遵循的是“物理邏輯”。這就是李飛飛認(rèn)為,掌握空間智能的AI該做的事情。她把它稱(chēng)為,世界模型。
之前,如果你讓AI畫(huà)一個(gè)“凌亂的房間”,它會(huì)生成一張像模像樣的圖片。但是,你沒(méi)辦法看看桌子底下有什么,把地上的臟衣服撿起來(lái)。但在世界模型生成的房間,你可以蹲下來(lái)看床底、拉開(kāi)抽屜。因?yàn)榉块g里有重力、有光影,還有遮擋關(guān)系。
這和目前的AI視頻,也有本質(zhì)區(qū)別。因?yàn)锳I視頻,只是“看上去理解了世界”,本質(zhì)上還是在黑屋子里,預(yù)測(cè)下一個(gè)像素。
比如,吃漢堡。雖然AI視頻可以預(yù)測(cè)到,當(dāng)人的嘴到了漢堡上,漢堡大概率會(huì)變形、會(huì)缺少一塊,但它并不理解,漢堡為什么是軟的,以及,人咬下一口之后,那一塊漢堡其實(shí)是到了人的嘴里。它也沒(méi)辦法換個(gè)位置,看看漢堡的面包底是不是焦了。
預(yù)測(cè)下一幀世界。理解了。可是,這要怎么做到?
語(yǔ)言,說(shuō)白了就是一個(gè)詞接著一個(gè)詞,是一維的序列信號(hào)。但世界是三維的,甚至還要加時(shí)間維度。重力決定了蘋(píng)果怎么掉,原子結(jié)構(gòu)決定了光線(xiàn)怎么反射。要預(yù)測(cè)下一幀世界,就得讓語(yǔ)義、幾何、物理規(guī)律保持一致,這比處理語(yǔ)言復(fù)雜太多了。
李飛飛也很坦率,聊了幾個(gè)他們團(tuán)隊(duì)還在死磕的方向。
比如,找公式。
大語(yǔ)言模型之所以成功,是因?yàn)檎业搅艘粋€(gè)簡(jiǎn)單的任務(wù)函數(shù):預(yù)測(cè)下一個(gè)詞。世界模型,也能找到這樣一個(gè)簡(jiǎn)單優(yōu)雅的公式嗎?目前還需要努力。
比如,找數(shù)據(jù)。
要訓(xùn)練具有空間智能的世界模型,就得找到海量空間數(shù)據(jù)。去哪找?他們正在開(kāi)發(fā)一種,從互聯(lián)網(wǎng)上的二維視頻里,提取空間信息的算法。
過(guò)去的AI,是在用概率“猜”下一個(gè)詞;未來(lái)的AI,或許能用物理“算”下一幀世界。
04
精確地把“想象”變成“真實(shí)”,也許是下個(gè)時(shí)代最大的機(jī)會(huì)之一
李飛飛的World Labs,已經(jīng)做出了一款叫Marble的產(chǎn)品。
具體網(wǎng)址:https://marble.worldlabs.ai/。
只要你提供一句描述,一張照片,它就可以生成一個(gè)可以探索的空間。
我試著上傳了一張我們新辦公室的照片,沒(méi)想到還真能行。

(圖片來(lái)自:Marble)
是不是還挺有意思的?幾秒鐘內(nèi),它不僅識(shí)別出了里面的桌子、椅子,還腦補(bǔ)出了空間位置。雖然還很粗糙。可能是我只上傳了一張照片的原因。
那么,如果未來(lái)的AI真的如李飛飛所說(shuō)的那樣,有了空間智能,又意味著什么?
首先,對(duì)于普通人來(lái)說(shuō),是AI進(jìn)入現(xiàn)實(shí)社會(huì),所帶來(lái)的極大便利。
一旦空間智能成熟,離機(jī)器人走入家庭,就真的不遠(yuǎn)了。它能理解“花瓶是易碎的,要繞著走”;能理解“地上有水,要先拖干”。讓機(jī)器人幫你疊衣服、整理雜亂的玩具房、甚至照顧老人起居,將變成現(xiàn)實(shí)。甚至再進(jìn)一步,讓納米機(jī)器人在血管里送藥。
而當(dāng)AI基于空間智能,掌握了從現(xiàn)實(shí)中抽象出規(guī)律的能力,它們或許,就能像牛頓和愛(ài)因斯坦一樣,擁有“科學(xué)家的直覺(jué)”。從而,真正發(fā)現(xiàn)規(guī)律、進(jìn)行創(chuàng)新。
接著,對(duì)于創(chuàng)業(yè)者來(lái)說(shuō),加持空間智能的AI,可能意味著一些新的機(jī)會(huì)。
比如,真正“可控”的視頻生成。
現(xiàn)在的視頻AI(比如 Sora),雖然厲害,但還是有點(diǎn)“抽盲盒”。它可以生成一只貓。但你很難控制貓的走位、光影的角度。這對(duì)商業(yè)廣告、電影制作來(lái)說(shuō),就有點(diǎn)難操作。甲方要求臉必須再轉(zhuǎn)15%,你不能說(shuō)“AI 隨機(jī)生成的我改不了”。
李飛飛在訪(fǎng)談里就舉了一個(gè)例子。他們和索尼的一家虛擬制作公司合作,用了Marble搭建場(chǎng)景,可以自由地選擇拍攝角度,生產(chǎn)效率提升了40倍。
比如,做一些“想象成真”的ToC產(chǎn)品。
例如,裝修。拍一張毛坯房的照片,說(shuō)改成北歐風(fēng),暖色調(diào)。幾秒鐘后,你就可以得到一個(gè)可以到處走,還能修改沙發(fā)位置的虛擬樣板間。例如,3D相冊(cè),給一張老房子的照片,就能得到一個(gè)3D空間。你可以看看桌上的擺設(shè),看看墻上的掛歷,再次回到小時(shí)候。
李飛飛提到了一個(gè)讓我特別意外的場(chǎng)景:心理治療。有團(tuán)隊(duì)找上門(mén),表示想用這個(gè)技術(shù),來(lái)治療“恐高癥”。通過(guò)瞬間生成的虛擬懸崖,就能幫病人一步步克服恐懼。
又比如,賣(mài)合成數(shù)據(jù),給做機(jī)器人的公司。
本質(zhì)上,這就是給機(jī)器人,開(kāi)了一間學(xué)校。你不需要造機(jī)器人,你只需要生產(chǎn)特定領(lǐng)域的“教材”。比如,專(zhuān)門(mén)生產(chǎn)“怎么修汽車(chē)”的數(shù)據(jù),賣(mài)給修車(chē)機(jī)器人公司;專(zhuān)門(mén)生產(chǎn)“怎么做手術(shù)”的數(shù)據(jù),賣(mài)給醫(yī)療機(jī)器人公司。
精確地把“想象”變成看得見(jiàn)、摸得著的“真實(shí)”,也許是接下來(lái)最大的機(jī)會(huì)之一。
最后的話(huà)
好了。總結(jié)一下。
為什么AI現(xiàn)在這么厲害,但還是會(huì)犯一些低級(jí)錯(cuò)誤?可能因?yàn)椋鼪](méi)有真正理解世界,而只是在統(tǒng)計(jì)規(guī)律中找答案。所以未來(lái),AI的發(fā)展方向,可能要拐一下,從預(yù)測(cè)下一個(gè)詞,到預(yù)測(cè)下一幀世界。也就是真正掌握,空間智能。
那,這個(gè)方向?qū)Σ粚?duì)?會(huì)不會(huì)通向真正的智能?
我不知道。但至少,這是一個(gè)值得嘗試的方向。因?yàn)槟壳暗拇笳Z(yǔ)言模型,確實(shí)遇到了瓶頸。參數(shù)越來(lái)越大,算力越來(lái)越強(qiáng),但一致性,總也沒(méi)有特別好的解決方案。
而且,如果這個(gè)方向真的走通了,確實(shí)會(huì)帶來(lái)一些變化。機(jī)器人可能真的能進(jìn)入家庭。甚至,AI可能真的能像科學(xué)家一樣,從現(xiàn)實(shí)中發(fā)現(xiàn)規(guī)律,而不只是從數(shù)據(jù)中總結(jié)規(guī)律。
當(dāng)然,這一切都還很早。Marble,還很粗糙。世界模型的“公式”還沒(méi)找到,空間數(shù)據(jù)也還不夠。但至少,通往智能的那個(gè)未來(lái),又多了幾分念想。
畢竟,科技進(jìn)步從來(lái)不是一條直線(xiàn)。
繞點(diǎn)遠(yuǎn)路,沒(méi)啥。
參考資料:
1、From Words to Worlds: Spatial Intelligence is AI’s Next Frontier
2、谷歌開(kāi)發(fā)者指南:Introduction to Large Language Models | MachineLearning
觀(guān)點(diǎn)/ 劉潤(rùn)主筆/ 景九編輯/ 歌平版面/ 黃 靜
這是劉潤(rùn)公眾號(hào)第2783篇原創(chuàng)文章。未經(jīng)授權(quán),禁止任何機(jī)構(gòu)或個(gè)人抓取本文內(nèi)容,用于訓(xùn)練AI大模型等用途
![]()

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.