網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

AI教母李飛飛最新長文：空間智能是AI的下一個前沿「LLM太局限了，缺乏現(xiàn)實根基」

2025-11-11 08:15:26　來源: AI寒武紀(jì)

江蘇舉報

分享至

剛剛，AI教母、斯坦福大學(xué)教授李飛飛發(fā)表了一篇最新文章《從語言到世界：空間智能是AI的下一個前沿》，這篇文章是李飛飛對其25年AI生涯的深入思考

李飛飛認(rèn)為，盡管以LLM為代表的AI技術(shù)已深刻改變世界，但它們本質(zhì)上仍是“黑暗中的文字匠”——能言善辯但缺乏經(jīng)驗，知識淵博但缺乏現(xiàn)實根基

要讓AI真正理解并與物理世界互動，就必須突破語言的限制，邁向空間智能 (Spatial Intelligence)。

李飛飛認(rèn)為，空間智能將是AI的下一個前沿，它將賦能AI，使其擁有故事講述者的想象力、第一反應(yīng)者的行動力，以及科學(xué)家的空間推理精度。

為了實現(xiàn)這一目標(biāo)，她提出了構(gòu)建世界模型 的框架，并詳細(xì)闡述了其三大核心能力、面臨的技術(shù)挑戰(zhàn)以及廣闊的應(yīng)用前景

全文：《從語言到世界：空間智能是AI的下一個前沿》

https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence

1950年，當(dāng)計算還不過是自動化算術(shù)和簡單邏輯時，艾倫·圖靈提出了一個至今仍回響不絕的問題：機(jī)器能思考嗎？他所預(yù)見的景象需要非凡的想象力：智能或許有朝一日可以被構(gòu)建，而非與生俱來。這一洞見后來開啟了一場名為人工智能（AI）的不懈科學(xué)探索。在我25年的人工智能生涯中，我依然被圖靈的遠(yuǎn)見所激勵。但我們離這個目標(biāo)還有多遠(yuǎn)？答案并不簡單

今天，以大語言模型（LLM）為代表的頂尖AI技術(shù)已經(jīng)開始改變我們獲取和處理抽象知識的方式。然而，它們?nèi)匀皇呛诎抵械奈淖纸常荒苎陨妻q但缺乏經(jīng)驗，知識淵博但缺乏現(xiàn)實根基。空間智能將改變我們創(chuàng)造和與真實及虛擬世界互動的方式——它將徹底革新故事敘述、創(chuàng)造力、機(jī)器人學(xué)、科學(xué)發(fā)現(xiàn)等領(lǐng)域。這，就是AI的下一個前沿。

追求視覺與空間智能，一直是指引我進(jìn)入這個領(lǐng)域的北極星。正因如此，我花費數(shù)年時間構(gòu)建了ImageNet，這是第一個大規(guī)模視覺學(xué)習(xí)和基準(zhǔn)測試數(shù)據(jù)集，也是與神經(jīng)網(wǎng)絡(luò)算法和現(xiàn)代計算（如圖形處理單元GPU）并列的、催生現(xiàn)代AI誕生的三大關(guān)鍵要素之一。正因如此，我在斯坦福的學(xué)術(shù)實驗室在過去十年里一直致力于將計算機(jī)視覺與機(jī)器人學(xué)習(xí)相結(jié)合。也正因如此，我和我的聯(lián)合創(chuàng)始人Justin Johnson、Christoph Lassner、Ben Mildenhall在一年多前創(chuàng)辦了World Labs：為了首次全面實現(xiàn)這一可能性。

在這篇文章中，我將解釋什么是空間智能，它為何重要，以及我們?nèi)绾螛?gòu)建能夠解鎖它的世界模型——其影響力將重塑創(chuàng)造力、具身智能和人類進(jìn)步

空間智能：人類認(rèn)知的腳手架

AI從未如此激動人心。像LLM這樣的生成式AI模型已經(jīng)從研究實驗室走向日常生活，成為數(shù)十億人創(chuàng)造、生產(chǎn)和交流的工具。它們展示了曾被認(rèn)為不可能的能力，能夠輕松生成連貫的文本、堆積如山的代碼、逼真的圖像，甚至是短視頻片段。AI是否會改變世界，已不再是一個問題。以任何合理的定義來看，它已經(jīng)做到了。

然而，仍有太多領(lǐng)域遙不可及。自主機(jī)器人的愿景依然引人入勝但仍停留在推測階段，遠(yuǎn)未成為未來學(xué)家長期承諾的日常設(shè)備。在疾病治療、新材料發(fā)現(xiàn)和粒子物理學(xué)等領(lǐng)域，大規(guī)模加速研究的夢想在很大程度上仍未實現(xiàn)。而讓AI真正理解并賦能人類創(chuàng)造者的承諾——無論是幫助學(xué)生學(xué)習(xí)分子化學(xué)的復(fù)雜概念，協(xié)助建筑師構(gòu)想空間，輔助電影制作人構(gòu)建世界，還是為任何尋求完全沉浸式虛擬體驗的人提供支持——也仍然無法實現(xiàn)。

要了解為何這些能力仍然遙不可及，我們需要審視空間智能是如何演化的，以及它如何塑造我們對世界的理解。

視覺長期以來一直是人類智能的基石，但其力量源于某種更為根本的東西。早在動物能夠筑巢、照顧幼崽、用語言交流或建立文明之前，簡單的感知行為就已經(jīng)悄然開啟了一段通往智能的演化之旅。

這種看似孤立的、從外部世界收集信息的能力，無論是微光一閃還是質(zhì)感的觸碰，都在感知與生存之間建立了一座橋梁，并且隨著世代更迭，這座橋梁變得越來越堅固和精細(xì)。一層又一層的神經(jīng)元從這座橋梁上生長出來，形成了能夠解釋世界并協(xié)調(diào)生物體與其環(huán)境互動的神經(jīng)系統(tǒng)。因此，許多科學(xué)家推測，感知與行動構(gòu)成了驅(qū)動智能演化的核心循環(huán)，也是自然創(chuàng)造我們這個物種——感知、學(xué)習(xí)、思考和行動的終極體現(xiàn)——的基礎(chǔ)。

空間智能在定義我們?nèi)绾闻c物理世界互動方面扮演著基礎(chǔ)性角色。每一天，我們都依賴它來完成最普通的行為：通過想象保險杠與路沿之間不斷縮小的間隙來停車，接住別人從房間另一頭扔過來的鑰匙，在擁擠的人行道上穿行而避免碰撞，或者睡眼惺忪地不看杯子就把咖啡倒進(jìn)去。在更極端的情況下，消防員在濃煙滾滾、不斷坍塌的建筑中穿行，對結(jié)構(gòu)的穩(wěn)定性和生存機(jī)會做出瞬間判斷，通過手勢、肢體語言和一種無法用語言替代的共同職業(yè)本能進(jìn)行交流。而孩子們則在他們能夠說話之前的數(shù)月或數(shù)年里，通過與環(huán)境的嬉戲互動來學(xué)習(xí)世界。所有這一切都發(fā)生得直觀而自然——這是機(jī)器尚未達(dá)到的流暢程度。

空間智能也是我們想象力和創(chuàng)造力的基礎(chǔ)。故事講述者在腦海中創(chuàng)造出異常豐富的世界，并利用多種視覺媒介將其呈現(xiàn)給他人，從古代的洞穴壁畫到現(xiàn)代電影，再到沉浸式視頻游戲。無論是孩子們在沙灘上堆沙堡，還是在電腦上玩《我的世界》，基于空間的想象力構(gòu)成了真實或虛擬世界中互動體驗的基礎(chǔ)。在許多工業(yè)應(yīng)用中，對物體、場景和動態(tài)交互環(huán)境的模擬，為從工業(yè)設(shè)計到數(shù)字孿生再到機(jī)器人訓(xùn)練等無數(shù)關(guān)鍵商業(yè)用例提供了動力。

歷史上充滿了空間智能發(fā)揮核心作用、定義文明進(jìn)程的時刻。在古希臘，埃拉托斯特尼將影子轉(zhuǎn)化為幾何學(xué)——在太陽直射賽伊尼城的那一刻，他在亞歷山大城測量出7度的夾角——從而計算出地球的周長。哈格里夫斯的“珍妮紡紗機(jī)”通過一個空間上的洞察徹底改變了紡織制造業(yè)：將多個紡錘并排布置在一個框架中，使得一個工人能同時紡多根線，生產(chǎn)效率提高了八倍。沃森和克里克通過親手搭建3D分子模型發(fā)現(xiàn)了DNA的結(jié)構(gòu)，他們不斷擺弄金屬片和金屬絲，直到堿基對的空間排列“咔噠”一聲完美契合。在每一個案例中，當(dāng)科學(xué)家和發(fā)明家需要操縱物體、構(gòu)想結(jié)構(gòu)并對物理空間進(jìn)行推理時，空間智能都推動了文明的進(jìn)步——這些都無法僅用文字來捕捉。

空間智能是我們認(rèn)知構(gòu)建的腳手架。無論我們是被動觀察還是主動創(chuàng)造，它都在發(fā)揮作用。它驅(qū)動著我們的推理和規(guī)劃，即使是在最抽象的話題上。它對于我們互動的方式至關(guān)重要——無論是口頭的還是身體的，無論是與同伴還是與環(huán)境本身。雖然我們大多數(shù)人并非每天都在揭示像埃拉托斯特尼那樣的宇宙真理，但我們?nèi)粘５乃伎挤绞脚c他并無二致——通過感官感知復(fù)雜的世界，然后利用一種直觀的、基于物理和空間術(shù)語的理解來領(lǐng)悟其運作方式。

不幸的是，今天的AI還不能像這樣思考。

過去幾年確實取得了巨大進(jìn)步。多模態(tài)大語言模型（MLLM）通過海量的多媒體數(shù)據(jù)和文本數(shù)據(jù)進(jìn)行訓(xùn)練，引入了一些基礎(chǔ)的空間意識，今天的AI可以分析圖片、回答相關(guān)問題，并生成超逼真的圖像和短視頻。通過傳感器和觸覺技術(shù)的突破，我們最先進(jìn)的機(jī)器人已經(jīng)開始能夠在高度受限的環(huán)境中操縱物體和工具。

然而，坦率地說，AI的空間能力遠(yuǎn)未達(dá)到人類水平。其局限性很快就會顯現(xiàn)。在估算距離、方向和大小，或通過從新角度重新生成來“精神上”旋轉(zhuǎn)物體等任務(wù)上，最先進(jìn)的MLLM模型的表現(xiàn)很少能超過隨機(jī)猜測。它們無法導(dǎo)航迷宮、識別捷徑或預(yù)測基本的物理現(xiàn)象。AI生成的視頻——雖然處于初級階段，但確實非常酷——往往在幾秒鐘后就失去連貫性。

雖然當(dāng)前最先進(jìn)的AI在閱讀、寫作、研究和數(shù)據(jù)模式識別方面表現(xiàn)出色，但這些相同的模型在表示或與物理世界互動時，卻存在根本性的局限。我們對世界的看法是整體的——不僅是我們正在看什么，還包括萬物在空間上如何關(guān)聯(lián)，這意味著什么，以及為何重要。通過想象、推理、創(chuàng)造和互動——而不僅僅是描述——來理解這一切，正是空間智能的力量。沒有它，AI就與它試圖理解的物理現(xiàn)實脫節(jié)。它無法有效地駕駛我們的汽車，引導(dǎo)我們家庭和醫(yī)院中的機(jī)器人，為學(xué)習(xí)和娛樂創(chuàng)造全新的沉浸式和互動式體驗，或加速材料科學(xué)和醫(yī)學(xué)領(lǐng)域的發(fā)現(xiàn)。

哲學(xué)家維特根斯坦曾寫道：“我語言的極限，意味著我世界的極限。”我不是哲學(xué)家。但我知道，至少對AI而言，世界遠(yuǎn)不止于語言。空間智能代表了超越語言的前沿——這種能力連接了想象、感知和行動，并為機(jī)器真正提升人類生活開辟了可能性，從醫(yī)療保健到創(chuàng)造力，從科學(xué)發(fā)現(xiàn)到日常輔助。

AI的下一個十年：構(gòu)建真正具備空間智能的機(jī)器

那么，我們?nèi)绾螛?gòu)建具備空間智能的AI？如何才能讓模型具備埃拉托斯特尼的洞察力進(jìn)行推理，擁有工業(yè)設(shè)計師的精度進(jìn)行工程設(shè)計，懷揣故事講述者的想象力進(jìn)行創(chuàng)造，并能像第一反應(yīng)者一樣流暢地與環(huán)境互動？

構(gòu)建具備空間智能的AI需要比LLM更宏大的目標(biāo)：世界模型，這是一種新型的生成式模型，其理解、推理、生成以及與語義、物理、幾何和動態(tài)上都極為復(fù)雜的世界（無論是虛擬還是真實）進(jìn)行交互的能力，遠(yuǎn)非當(dāng)今的LLM所能及。這個領(lǐng)域尚處于起步階段，當(dāng)前的方法從抽象推理模型到視頻生成系統(tǒng)不一而足。World Labs于2024年初成立，正是基于這樣的信念：基礎(chǔ)性方法仍在建立之中，這使其成為未來十年的決定性挑戰(zhàn)。

在這個新興領(lǐng)域，最重要的是確立指導(dǎo)發(fā)展的原則。對于空間智能，我通過三個核心能力來定義世界模型：

1.生成性 (Generative)：世界模型能夠生成在感知、幾何和物理上保持一致的世界

解鎖空間理解和推理的世界模型，也必須能夠生成它們自己的模擬世界。它們必須能夠生成無窮無盡、多種多樣的模擬世界，這些世界遵循語義或感知的指令，同時在幾何、物理和動態(tài)上保持一致——無論其代表的是真實空間還是虛擬空間。研究界正在積極探索這些世界應(yīng)該以隱式還是顯式的方式來表示其內(nèi)在的幾何結(jié)構(gòu)。此外，除了強(qiáng)大的潛在表示，我相信一個通用的世界模型，其輸出還必須能夠為許多不同的用例生成一個明確、可觀察的世界狀態(tài)。特別是，它對當(dāng)前狀態(tài)的理解必須與它的過去——即導(dǎo)致當(dāng)前狀態(tài)的世界先前狀態(tài)——連貫地聯(lián)系在一起。

2.多模態(tài) (Multimodal)：世界模型天生就是多模態(tài)的

正如動物和人類一樣，世界模型應(yīng)該能夠處理多種形式的輸入——在生成式AI領(lǐng)域被稱為“提示”。給定部分信息——無論是圖像、視頻、深度圖、文本指令、手勢還是動作——世界模型都應(yīng)預(yù)測或生成盡可能完整的世界狀態(tài)。這要求模型既能以真實視覺的保真度處理視覺輸入，又能以同等的能力解釋語義指令。這使得智能體和人類都能通過多樣化的輸入與模型就世界進(jìn)行交流，并反過來接收多樣化的輸出。

3.交互性 (Interactive)：世界模型能夠根據(jù)輸入的動作輸出下一個狀態(tài)

最后，如果動作和/或目標(biāo)是世界模型提示的一部分，其輸出必須包含世界的下一個狀態(tài)，無論是隱式還是顯式表示。當(dāng)只給定一個動作（無論有無目標(biāo)狀態(tài)）作為輸入時，世界模型應(yīng)該產(chǎn)生一個與世界先前狀態(tài)、預(yù)期的目標(biāo)狀態(tài)（如果有的話）及其語義含義、物理定律和動態(tài)行為相一致的輸出。隨著具備空間智能的世界模型在推理和生成能力上變得更加強(qiáng)大和穩(wěn)健，可以想見，在給定目標(biāo)的情況下，世界模型本身不僅能預(yù)測世界的下一個狀態(tài)，還能根據(jù)新狀態(tài)預(yù)測下一個動作。

這個挑戰(zhàn)的范圍超過了AI以往面臨的任何挑戰(zhàn)。

雖然語言是人類認(rèn)知中純粹的生成現(xiàn)象，但世界的運作規(guī)則要復(fù)雜得多。例如，在地球上，引力支配著運動，原子結(jié)構(gòu)決定了光如何產(chǎn)生顏色和亮度，無數(shù)的物理定律約束著每一次互動。即使是最奇幻、最有創(chuàng)意的世界，也是由遵循其自身物理定律和動態(tài)行為的空間物體和智能體組成的。要將所有這些——語義、幾何、動態(tài)和物理——一致地協(xié)調(diào)起來，需要全新的方法。表示一個世界的維度，遠(yuǎn)比表示像語言這樣的一維序列信號要復(fù)雜得多。要實現(xiàn)能夠提供我們?nèi)祟愃碛械哪欠N通用能力的世界模型，需要克服幾個巨大的技術(shù)障礙。在World Labs，我們的研究團(tuán)隊正致力于為實現(xiàn)這一目標(biāo)取得根本性進(jìn)展。

以下是我們當(dāng)前研究課題的一些例子：

一個新的、通用的訓(xùn)練任務(wù)函數(shù)：定義一個像LLM中的“下一詞元預(yù)測”一樣簡潔優(yōu)雅的通用任務(wù)函數(shù)，一直是世界模型研究的核心目標(biāo)。其輸入和輸出空間的復(fù)雜性使得這樣一個函數(shù)在形式化上 inherently more difficult。盡管仍有許多待探索之處，但這個目標(biāo)函數(shù)和相應(yīng)的表示必須反映幾何和物理定律，尊重世界模型作為想象與現(xiàn)實的根基表示的根本性質(zhì)。

大規(guī)模訓(xùn)練數(shù)據(jù)：訓(xùn)練世界模型需要比文本整理復(fù)雜得多的數(shù)據(jù)。好消息是：海量的數(shù)據(jù)源已經(jīng)存在。互聯(lián)網(wǎng)規(guī)模的圖像和視頻集合代表了豐富、可及的訓(xùn)練材料——挑戰(zhàn)在于開發(fā)能夠從這些二維圖像或視頻幀信號（即RGB）中提取更深層次空間信息的算法。過去十年的研究已經(jīng)顯示了語言模型中數(shù)據(jù)量和模型大小之間的規(guī)模法則的力量；解鎖世界模型的關(guān)鍵在于構(gòu)建能夠以相當(dāng)規(guī)模利用現(xiàn)有視覺數(shù)據(jù)的架構(gòu)。此外，我不會低估高質(zhì)量合成數(shù)據(jù)以及像深度和觸覺信息等額外模態(tài)的力量。它們在訓(xùn)練過程的關(guān)鍵步驟中補(bǔ)充了互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)。但前進(jìn)的道路依賴于更好的傳感器系統(tǒng)、更穩(wěn)健的信號提取算法，以及更強(qiáng)大的神經(jīng)模擬方法。

新的模型架構(gòu)和表示學(xué)習(xí)：世界模型研究將不可避免地推動模型架構(gòu)和學(xué)習(xí)算法的進(jìn)步，特別是超越當(dāng)前的MLLM和視頻擴(kuò)散范式。這兩種范式通常將數(shù)據(jù)標(biāo)記化為一維或二維序列，這使得簡單的空間任務(wù)——如數(shù)清短視頻中不重復(fù)的椅子數(shù)量，或記住一個小時前房間的樣子——變得不必要地困難。替代架構(gòu)可能會有所幫助，例如用于標(biāo)記化、上下文和記憶的3D或4D感知方法。例如，在World Labs，我們最近關(guān)于一個名為RTFM的實時生成式基于幀的模型的工作就展示了這種轉(zhuǎn)變，它使用基于空間的幀作為一種空間記憶形式，以實現(xiàn)高效的實時生成，同時保持生成世界的持久性。

顯然，在通過世界建模完全解鎖空間智能之前，我們?nèi)匀幻媾R著艱巨的挑戰(zhàn)。這項研究不僅僅是理論練習(xí)，它是新一類創(chuàng)意和生產(chǎn)力工具的核心引擎。World Labs內(nèi)部的進(jìn)展令人鼓舞。我們最近與少數(shù)用戶分享了Marble的一瞥，這是有史以來第一個可以通過多模態(tài)輸入提示來生成和維持一致3D環(huán)境的世界模型，供用戶和故事講述者在他們的創(chuàng)意工作流中探索、互動和進(jìn)一步構(gòu)建。我們正在努力使其盡快向公眾開放！

Marble只是我們創(chuàng)造一個真正具備空間智能的世界模型的第一步。隨著進(jìn)展加速，研究人員、工程師、用戶和商界領(lǐng)袖都開始認(rèn)識到其非凡的潛力。下一代世界模型將使機(jī)器能夠在全新的水平上實現(xiàn)空間智能——這一成就將解鎖當(dāng)今AI系統(tǒng)中仍然普遍缺乏的核心能力。

使用世界模型為人們構(gòu)建一個更美好的世界

發(fā)展AI的動機(jī)至關(guān)重要。作為幫助開啟現(xiàn)代AI時代的科學(xué)家之一，我的動機(jī)一直很明確：AI必須增強(qiáng)人類的能力，而不是取代人類。多年來，我一直致力于將AI的開發(fā)、部署和治理與人類需求對齊。如今，技術(shù)烏托邦和末日論的極端敘事比比皆是，但我繼續(xù)持有一種更務(wù)實的觀點：AI由人開發(fā)，由人使用，由人治理。它必須始終尊重人的能動性和尊嚴(yán)。它的魔力在于擴(kuò)展我們的能力；使我們更有創(chuàng)造力、更緊密連接、更高效、更有成就感。空間智能代表了這一愿景——AI賦能人類創(chuàng)造者、護(hù)理人員、科學(xué)家和夢想家，去實現(xiàn)曾經(jīng)不可能的事情。這一信念驅(qū)動著我將空間智能視為AI下一個偉大前沿的承諾。

空間智能的應(yīng)用橫跨不同的時間線。創(chuàng)意工具正在涌現(xiàn)——World Labs的Marble已經(jīng)將這些能力交到了創(chuàng)作者和故事講述者的手中。隨著我們完善感知與行動之間的循環(huán)，機(jī)器人學(xué)代表了一個雄心勃勃的中期目標(biāo)。最具變革性的科學(xué)應(yīng)用將需要更長時間，但有望對人類的繁榮產(chǎn)生深遠(yuǎn)影響。

在所有這些時間線上，有幾個領(lǐng)域因其重塑人類能力的潛力而脫穎而出。這需要巨大的集體努力，遠(yuǎn)非一個團(tuán)隊或一家公司所能實現(xiàn)。它需要整個AI生態(tài)系統(tǒng)的參與——研究人員、創(chuàng)新者、企業(yè)家、公司，甚至政策制定者——共同努力實現(xiàn)一個共同的愿景。但這個愿景值得追求。以下是這個未來所包含的內(nèi)容：

創(chuàng)意：為故事敘述和沉浸式體驗注入超能力

“創(chuàng)造力是智慧在玩耍。” 這是我個人英雄阿爾伯特·愛因斯坦最喜歡的名言之一。早在書面語言出現(xiàn)之前，人類就在講述故事——將它們畫在洞穴墻壁上，代代相傳，在共同的敘事上建立起整個文化。故事是我們理解世界、跨越時空連接、探索人性意義的方式，最重要的是，在生活中尋找意義，在自我中發(fā)現(xiàn)愛。今天，空間智能有潛力改變我們創(chuàng)造和體驗敘事的方式，這種方式既尊重其根本重要性，又將其影響從娛樂擴(kuò)展到教育，從設(shè)計擴(kuò)展到建筑。

World Labs的Marble平臺將把前所未有的空間能力和編輯可控性交到電影制作人、游戲設(shè)計師、建筑師和各類故事講述者的手中，讓他們能夠快速創(chuàng)建和迭代完全可探索的3D世界，而無需傳統(tǒng)3D設(shè)計軟件的開銷。創(chuàng)造性行為仍然像以往一樣至關(guān)重要和人性化；AI工具只是放大和加速了創(chuàng)作者所能達(dá)到的成就。這包括：

新維度的敘事體驗：電影制作人和游戲設(shè)計師正在使用Marble來創(chuàng)造完整的世界，而不受預(yù)算或地理位置的限制，探索各種在傳統(tǒng)制作流程中難以處理的場景和視角。隨著不同形式的媒體和娛樂之間的界限日益模糊，我們正在接近一種全新的互動體驗，它融合了藝術(shù)、模擬和游戲——個性化的世界，其中任何人，而不僅僅是工作室，都可以創(chuàng)造并棲居于自己的故事中。隨著將概念和故事板提升為完整體驗的更新、更快捷方式的興起，敘事將不再局限于單一媒介，創(chuàng)作者可以自由地在無數(shù)的界面和平臺上構(gòu)建具有共同主線貫穿的世界。

通過設(shè)計進(jìn)行空間敘事：基本上，每一個制造出來的物體或建造的空間，在其實體創(chuàng)造之前都必須在虛擬3D中進(jìn)行設(shè)計。這個過程迭代性強(qiáng)，且在時間和金錢上都成本高昂。有了具備空間智能的模型，建筑師可以在投入數(shù)月進(jìn)行設(shè)計之前快速可視化結(jié)構(gòu)，漫步于尚未存在的空間中——這本質(zhì)上是在講述我們可能如何生活、工作和聚集的故事。工業(yè)和時尚設(shè)計師可以立即將想象轉(zhuǎn)化為形式，探索物體如何與人體和空間互動。

全新的沉浸式與交互式體驗：體驗本身是我們作為一個物種創(chuàng)造意義的最深層次的方式之一。在整個人類歷史上，只有一個單一的3D世界：我們所有人共享的物理世界。直到最近幾十年，通過游戲和早期的虛擬現(xiàn)實（VR），我們才開始瞥見共享我們自己創(chuàng)造的替代世界意味著什么。現(xiàn)在，空間智能與新的設(shè)備形態(tài)（如VR和擴(kuò)展現(xiàn)實（XR）頭顯及沉浸式顯示器）相結(jié)合，以前所未有的方式提升了這些體驗。我們正接近一個未來，在這個未來中，踏入完全實現(xiàn)的多維世界將像打開一本書一樣自然。空間智能使世界構(gòu)建不再僅僅是擁有專業(yè)制作團(tuán)隊的工作室的專利，而是對個人創(chuàng)作者、教育者和任何有愿景分享的人開放。

機(jī)器人：具身智能的實踐

從昆蟲到人類，動物都依賴空間智能來理解、導(dǎo)航和與它們的世界互動。機(jī)器人也不例外。具備空間感知能力的機(jī)器自該領(lǐng)域誕生之初就是其夢想，這也包括我自己與我的學(xué)生和合作者在斯坦福研究實驗室的工作。這也是為什么我如此興奮于利用World Labs正在構(gòu)建的這類模型來實現(xiàn)它們的可能性。

通過世界模型擴(kuò)展機(jī)器人學(xué)習(xí)：機(jī)器人學(xué)習(xí)的進(jìn)展取決于一個可行的訓(xùn)練數(shù)據(jù)的可擴(kuò)展解決方案。考慮到機(jī)器人必須學(xué)習(xí)去理解、推理、規(guī)劃和互動的巨大狀態(tài)空間，許多人推測，需要結(jié)合互聯(lián)網(wǎng)數(shù)據(jù)、合成模擬和真實世界的人類演示捕捉，才能真正創(chuàng)造出具有泛化能力的機(jī)器人。但與語言模型不同，當(dāng)今機(jī)器人研究的訓(xùn)練數(shù)據(jù)稀缺。世界模型將在此扮演決定性角色。隨著它們感知保真度和計算效率的提高，世界模型的輸出可以迅速縮小模擬與現(xiàn)實之間的差距。這反過來將有助于在無數(shù)狀態(tài)、互動和環(huán)境的模擬中訓(xùn)練機(jī)器人。

成為伙伴與合作者：機(jī)器人作為人類的合作者，無論是輔助實驗室的科學(xué)家，還是協(xié)助獨居的老人，都可以擴(kuò)充急需更多勞動力和生產(chǎn)力的部分勞動力市場。但要做到這一點，需要空間智能能夠感知、推理、規(guī)劃和行動，同時——這一點最重要——與人類的目標(biāo)和行為保持共情對齊。例如，一個實驗室機(jī)器人可以處理儀器，讓科學(xué)家專注于需要靈巧或推理的任務(wù)，而一個家庭助理可以幫助老年人做飯，而不會削弱他們的快樂或自主性。能夠預(yù)測與此期望一致的下一個狀態(tài)甚至可能是下一個動作的、真正具備空間智能的世界模型，對于實現(xiàn)這一目標(biāo)至關(guān)重要。

擴(kuò)展具身智能的形式：人形機(jī)器人在我們?yōu)樽约簶?gòu)建的世界中扮演著一個角色。但創(chuàng)新的全部好處將來自更多樣化的設(shè)計：運送藥物的納米機(jī)器人，在狹窄空間中穿行的軟體機(jī)器人，以及為深海或外太空建造的機(jī)器。無論它們的形式如何，未來的空間智能模型都必須整合這些機(jī)器人所處的環(huán)境以及它們自身的具身感知和運動。但開發(fā)這些機(jī)器人的一個關(guān)鍵挑戰(zhàn)是，在這些各種各樣的具身形態(tài)因素中缺乏訓(xùn)練數(shù)據(jù)。世界模型將在模擬數(shù)據(jù)、訓(xùn)練環(huán)境和這些工作的基準(zhǔn)測試任務(wù)中發(fā)揮關(guān)鍵作用。

更長遠(yuǎn)的未來：科學(xué)、醫(yī)療和教育

除了創(chuàng)意和機(jī)器人應(yīng)用，空間智能的深遠(yuǎn)影響還將延伸到AI能夠以拯救生命和加速發(fā)現(xiàn)的方式增強(qiáng)人類能力的領(lǐng)域。我下面重點介紹三個可以帶來深刻變革的應(yīng)用領(lǐng)域，盡管不言而喻，空間智能的用例在更多行業(yè)中都非常廣泛。

在科學(xué)研究中，具備空間智能的系統(tǒng)可以模擬實驗，并行測試假說，并探索人類無法進(jìn)入的環(huán)境——從深海到遙遠(yuǎn)的行星。這項技術(shù)可以改變氣候科學(xué)和材料研究等領(lǐng)域的計算建模。通過將多維模擬與真實世界數(shù)據(jù)收集相結(jié)合，這些工具可以降低計算門檻，并擴(kuò)展每個實驗室所能觀察和理解的范圍。

在醫(yī)療健康領(lǐng)域，空間智能將重塑從實驗室到病床的一切。在斯坦福，我的學(xué)生和合作者多年來一直與醫(yī)院、老年護(hù)理機(jī)構(gòu)和居家患者合作。這段經(jīng)歷讓我確信了空間智能在此處的變革潛力。AI可以通過多維建模分子相互作用來加速藥物發(fā)現(xiàn)，通過幫助放射科醫(yī)生在醫(yī)學(xué)影像中發(fā)現(xiàn)模式來增強(qiáng)診斷，并實現(xiàn)環(huán)境監(jiān)測系統(tǒng)，在不取代治愈所需的人際連接的情況下支持患者和護(hù)理人員，更不用說機(jī)器人在許多不同環(huán)境中幫助我們的醫(yī)護(hù)人員和患者的潛力。

在教育領(lǐng)域，空間智能可以實現(xiàn)沉浸式學(xué)習(xí)，使抽象或復(fù)雜的概念變得具體可感，并創(chuàng)造對于我們大腦和身體學(xué)習(xí)方式至關(guān)重要的迭代體驗。在AI時代，更快、更有效的學(xué)習(xí)和再培訓(xùn)的需求對學(xué)齡兒童和成年人都尤為重要。學(xué)生可以在多維度中探索細(xì)胞機(jī)制或漫步于歷史事件。教師獲得了通過互動環(huán)境進(jìn)行個性化教學(xué)的工具。專業(yè)人士——從外科醫(yī)生到工程師——可以在逼真的模擬中安全地練習(xí)復(fù)雜技能。

在所有這些領(lǐng)域中，可能性是無限的，但目標(biāo)始終如一：AI增強(qiáng)人類專長，加速人類發(fā)現(xiàn)，并放大人類關(guān)懷——而不是取代作為人類核心的判斷力、創(chuàng)造力和同理心。

結(jié)論

過去十年見證了AI成為一個全球現(xiàn)象，以及技術(shù)、經(jīng)濟(jì)乃至地緣政治的轉(zhuǎn)折點。但作為一名研究者、教育者，以及現(xiàn)在的創(chuàng)業(yè)者，最能激勵我的，仍然是圖靈在75年前提出的那個問題背后的精神。我仍然分享著他的那份驚奇感。正是這種感覺，讓我每天都為空間智能的挑戰(zhàn)而充滿活力。

歷史上第一次，我們有望構(gòu)建出與物理世界如此協(xié)調(diào)的機(jī)器，以至于我們可以依賴它們作為我們應(yīng)對所面臨的最大挑戰(zhàn)的真正伙伴。無論是在實驗室中加速我們對疾病的理解，徹底改變我們講述故事的方式，還是在我們因疾病、受傷或年老而最脆弱的時刻支持我們，我們正處在一個技術(shù)突破的關(guān)口，這項技術(shù)將提升我們最珍視的生活品質(zhì)。這是一個關(guān)于更深刻、更豐富、更強(qiáng)大生活的愿景。

在自然界于近五億年前在遠(yuǎn)古動物身上釋放出空間智能的第一縷微光之后，我們有幸成為可能很快將同樣能力賦予機(jī)器的那一代技術(shù)人員——并且有幸利用這些能力造福世界各地的人們。沒有空間智能，我們關(guān)于真正智能機(jī)器的夢想就不會完整

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.