李飛飛最新長文：AI的下一個十年——空間智能

2025-11-11 12:27:19　來源: 新經(jīng)濟學(xué)家智庫

北京舉報

分享至

資料圖。本文來源：騰訊科技

本賬號接受投稿，投稿郵箱：jingjixuejiaquan@126.com

LLM只是“黑暗中的文字匠”？李飛飛：AI的下一個戰(zhàn)場是“空間智能”

美國當(dāng)?shù)貢r間11月10日，“AI教母”李飛飛親自撰文，生成AI的下一個戰(zhàn)場是“空間智能”（Spatial Intelligence）。她首次系統(tǒng)性地解釋了什么是空間智能？它為什么如此重要？以及如何構(gòu)建能夠解鎖空間智能的世界模型。

李飛飛一針見血地指出了當(dāng)前AI存在的“致命缺陷”：它們只是“黑暗中的文字匠”，只懂語言，不懂世界！當(dāng)前的AI掌握了海量的抽象知識，但對于“物體是什么形狀？”“多大力氣會把杯子推倒？”“轉(zhuǎn)個彎會不會撞墻？”這類物理世界的常識和空間規(guī)律，它幾乎一無所知。

這種缺陷，直接卡死了AI升級的“大動脈”！這也是為什么自主機器人仍然像個蹣跚學(xué)步的孩子，為什么我們渴望的沉浸式元宇宙體驗還遙遙無期。

李飛飛教授敲響警鐘：AI的下一個十年的真正突破，不再是堆砌文字，而是要解鎖“空間智能”！這是連接感知、想象和行動的終極能力。

李飛飛此文發(fā)布后，立即在社交平臺引發(fā)熱議：

非常期待看到世界模型如何改變我們講故事、構(gòu)建虛擬世界乃至發(fā)展數(shù)字經(jīng)濟的方式。

AI 已經(jīng)學(xué)會了“看”和“說”，而下一步，我們正在教它理解并適應(yīng)我們所在的這個真實世界。

空間智能是世界模型中缺失的一環(huán)，它將推動LLM的能力實現(xiàn)一次巨大飛躍，只要因果推理能力和能效達(dá)到相應(yīng)水平，我們就將站在通往AGI的拐點上。

以下為李飛飛撰文全文：

從文字到世界：空間智能是AI的下一個前沿

1950年，當(dāng)計算機還只能完成自動化算術(shù)和簡單邏輯運算時，艾倫·圖靈提出了一個至今仍在叩問時代的問題：機器能夠思考嗎？

要理解他當(dāng)年的遠(yuǎn)見，需要非凡的想象力：智能或許終將由人類構(gòu)建，而非坐等天降。這一洞見后來催生了名為“人工智能”的持續(xù)探索。在我投身AI研究的二十五年后，圖靈的愿景依然激勵著我。但我們離目標(biāo)還有多遠(yuǎn)？答案并不簡單。

如今，以大語言模型（LLM）為代表的尖端AI技術(shù)，已經(jīng)開始改變我們獲取和運用抽象知識的方式。然而它們終究像是“黑暗中的文字匠”，辭藻華麗卻缺乏歷練，學(xué)識淵博卻脫離實際。空間智能將重塑我們創(chuàng)造現(xiàn)實世界與虛擬世界的方式，推動敘事藝術(shù)、創(chuàng)意產(chǎn)業(yè)、機器人技術(shù)、科學(xué)探索等領(lǐng)域的革命性進步。這，就是AI亟待開拓的新前沿。

自我踏入這個領(lǐng)域以來，對視覺與空間智能的追尋始終是指引我前行的北極星。正因如此，我花費數(shù)年構(gòu)建了ImageNet，即首個大規(guī)模視覺學(xué)習(xí)與基準(zhǔn)測試數(shù)據(jù)集。它與神經(jīng)網(wǎng)絡(luò)算法、GPU等現(xiàn)代算力共同構(gòu)成了現(xiàn)代AI誕生的三大支柱。

正因如此，我在斯坦福的實驗室過去十年始終致力于將計算機視覺與機器人學(xué)習(xí)相融合。也正因如此，我與賈斯汀·約翰遜（Justin Johnson）、克里斯托夫·拉斯納（Christoph Lassner）和本·米爾登霍爾（Ben Mildenhall）共同創(chuàng)立了World Labs，期待首次完整實現(xiàn)這個愿景。

本文將闡述空間智能的內(nèi)涵與價值，并展示我們?nèi)绾瓮ㄟ^構(gòu)建世界模型來釋放其潛能。這場變革將重塑創(chuàng)造力、具身智能乃至人類文明的進程。

空間智能：人類認(rèn)知的基石

AI從未像今天這樣令人振奮。以大語言模型為代表的生成式AI已從實驗室走向日常生活，成為數(shù)十億人創(chuàng)作、生產(chǎn)與溝通的工具。它們展現(xiàn)出曾經(jīng)難以想象的能力：流暢行文、批量編碼、生成逼真圖像甚至短視頻。AI能否改變世界已無需爭論，從任何合理定義來看，變革早已開始。

然而，我們面前依然橫亙著無數(shù)挑戰(zhàn)。自主機器人的愿景仍停留在概念階段，遠(yuǎn)未成為未來學(xué)家預(yù)言的生活常態(tài)。在疾病治療、新材料發(fā)現(xiàn)、粒子物理等領(lǐng)域?qū)崿F(xiàn)研究加速的夢想大多尚未實現(xiàn)。能夠真正理解并賦能人類創(chuàng)造者的AI仍遙不可及，比如幫助學(xué)習(xí)分子化學(xué)的學(xué)生、構(gòu)想空間的設(shè)計師、構(gòu)建世界的電影人，還是追求沉浸式體驗的普通人。

要理解這些能力為何難以突破，我們需要回溯空間智能的演化歷程，審視它如何塑造我們對世界的認(rèn)知。

視覺長期被視為人類智能的基石，但其力量源于更本質(zhì)的源頭。早在動物能筑巢、撫育后代、用語言交流或建立文明之前，簡單的感知能力已悄然點燃智能進化的星火。

這種從外界獲取信息的能力，無論是捕捉一縷光線還是感知物體紋理，在感知與生存之間架起了橋梁。隨著世代更迭，這座橋梁變得愈發(fā)堅固復(fù)雜。層層神經(jīng)元由此生長，形成能夠解讀世界、協(xié)調(diào)生物與環(huán)境互動的神經(jīng)系統(tǒng)。因此許多科學(xué)家推測：感知與行動的循環(huán)驅(qū)動著智能進化，也是自然塑造人類——這種集感知、學(xué)習(xí)、思考與行動能力于一身的存在——的根本基礎(chǔ)。

空間智能定義著我們與物理世界的互動方式。日常生活中，我們靠它完成最尋常的動作：通過想象保險杠與路緣的間距來停車；接住拋來的鑰匙；在擁擠街道自如穿行；或是睡眼朦朧地準(zhǔn)確倒入咖啡。在極端情境下，消防員能在濃煙彌漫的坍塌建筑中穿行，憑直覺判斷結(jié)構(gòu)穩(wěn)定性，通過手勢、體態(tài)與專業(yè)本能進行無法用語言替代的交流。幼兒在學(xué)會說話前，正是通過與環(huán)境互動來認(rèn)知世界。這一切都自然而然地發(fā)生，而這種流暢能力正是機器尚未掌握的境界。

空間智能同樣是想象與創(chuàng)造的根基。從史前巖畫到現(xiàn)代影音，再到沉浸式游戲，創(chuàng)作者通過在腦海中構(gòu)建獨特世界，并借助視覺媒介將其呈現(xiàn)出來。無論孩童堆砌沙堡還是玩《我的世界》，基于空間的想象力構(gòu)成了虛實世界互動體驗的基礎(chǔ)。在工業(yè)領(lǐng)域，物體、場景與動態(tài)環(huán)境的仿真驅(qū)動著從工業(yè)設(shè)計、數(shù)字孿生到機器人訓(xùn)練的關(guān)鍵應(yīng)用。

在文明史上的決定性時刻，總有空間智能的身影：古希臘的埃拉托色尼（Eratosthenes）將影子轉(zhuǎn)化為幾何測量，通過亞歷山大與賽伊尼兩地的日影夾角計算出地球周長；哈格里夫斯（Hargreaves）發(fā)明的"珍妮紡紗機"通過將紡錘并列放置的空間構(gòu)想，使單人工效提升八倍，革新紡織業(yè)；沃森（Watson）與克里克（Crick）通過操縱三維分子模型，讓堿基對的空間排列豁然開朗，進而揭開了DNA結(jié)構(gòu)之謎。這些突破都證明：當(dāng)需要操縱物體、可視化結(jié)構(gòu)與推理空間關(guān)系時，這些都無法僅靠文字實現(xiàn)，但空間智能推動著文明前進。

空間智能是支撐人類認(rèn)知的隱形腳手架。不論被動觀察還是主動創(chuàng)造，它都在默默運作；即便處理最抽象的議題，它也驅(qū)動著我們的推理規(guī)劃；無論言語交流、身體互動，還是與環(huán)境對話，它都不可或缺。雖然常人未必能如埃拉托色尼般揭示宇宙真理，但我們始終在用相同的方式思考：通過感官感知復(fù)雜世界，并憑借對物理空間運作機制的直覺理解來把握現(xiàn)實。

遺憾的是，當(dāng)今的AI尚未具備這樣的思維能力。

過去幾年確實取得了顯著進展。融合海量多媒體數(shù)據(jù)訓(xùn)練的多模態(tài)大模型已具備基礎(chǔ)空間意識，能夠解析圖像、回答問題，生成超寫實畫面與短視頻。借助傳感器與觸覺技術(shù)突破，最先進的機器人已能在受限環(huán)境中操作工具。

但坦誠而言，AI的空間能力仍遠(yuǎn)遜于人。其局限顯而易見：頂尖多模態(tài)模型在估算距離、方向、尺寸，或進行物體"心理旋轉(zhuǎn)"時的表現(xiàn)幾乎與隨機猜測無異，它們無法穿越迷宮、識別捷徑或預(yù)測基礎(chǔ)物理現(xiàn)象，初現(xiàn)鋒芒的AI生成視頻常在數(shù)秒后失去連貫性。

當(dāng)前表現(xiàn)卓越的AI在閱讀、寫作、研究與數(shù)據(jù)模式識別方面表現(xiàn)出色，但這些模型在表征物理世界或與現(xiàn)實互動時存在根本缺陷。人類對世界的認(rèn)知是整體性的，不僅關(guān)注所見之物，更理解萬物空間關(guān)聯(lián)、內(nèi)在意義與價值所在。通過想象、推理、創(chuàng)造與互動（而非單純描述）來理解世界，才是空間智能的真諦。缺乏這種能力，AI就與它試圖理解的物理現(xiàn)實割裂開來，無法勝任駕駛汽車、指導(dǎo)家居醫(yī)療機器人、創(chuàng)造新型沉浸式學(xué)習(xí)娛樂體驗，或加速材料科學(xué)與醫(yī)學(xué)探索等任務(wù)。

哲學(xué)家維特根斯坦（Wittgenstein）曾說過："我的語言界限就是我的世界的界限"。我雖非哲學(xué)家，但我深知對AI而言，世界不止于文字。空間智能代表著超越語言的新前沿，這種聯(lián)結(jié)想象、感知與行動的能力，將為機器真正賦能人類生活開啟無限可能。

AI未來十年：構(gòu)建真正具備空間智能的機器

我們該如何構(gòu)建具備空間智能的AI？通往讓機器像埃拉托色尼般洞察時空、如工業(yè)設(shè)計師般精準(zhǔn)構(gòu)思、同故事大師般恣意創(chuàng)造、如急救人員般靈活應(yīng)對的路徑何在？

實現(xiàn)空間智能需要比大語言模型更宏大的構(gòu)想：世界模型。這類新型生成模型在理解、推理、生成及與語義-物理-幾何-動態(tài)復(fù)合的虛實世界互動方面，將遠(yuǎn)超現(xiàn)有模型能力范圍。這個新興領(lǐng)域正在孕育多種技術(shù)路徑。World Labs在2024年初創(chuàng)立正是基于一個信念：基礎(chǔ)范式尚在形成之中，這將成為未來十年的決定性課題。

在這個新興領(lǐng)域，確立發(fā)展原則至關(guān)重要。我認(rèn)為空間智能的世界模型需具備三項核心能力：

1. 生成性：創(chuàng)造符合感知、幾何與物理規(guī)律的世界

真正的世界模型不僅要理解空間，更要能生成自身的模擬世界。它必須能根據(jù)語義或感知指令，創(chuàng)造無限多樣且保持幾何、物理、動態(tài)一致性的虛擬空間。

學(xué)術(shù)界正在探索這些世界應(yīng)采用隱式（implicit）還是顯式（explicit）的幾何表征。除強大的隱式表征外，我認(rèn)為通用世界模型的輸出還需支持生成顯式可觀測的世界狀態(tài)，特別是要確保對當(dāng)前狀態(tài)的理解與導(dǎo)致現(xiàn)狀的歷史狀態(tài)保持連貫。

2. 多模態(tài)：本質(zhì)上的多元融合

如同人或動物的本能，世界模型應(yīng)能處理多種形式的輸入（在生成式AI中稱為"提示"）。無論是圖像、視頻、深度圖、文本指令、手勢或動作，給定局部信息后，模型都應(yīng)預(yù)測或生成盡可能完整的世界狀態(tài)。

這要求模型既具備真實視覺的解析精度，又擁有理解語義指令的靈活度，使智能體與人類都能通過多樣輸入與模型交流世界認(rèn)知。

3. 交互性：基于行動推演世界狀態(tài)

當(dāng)動作或目標(biāo)作為輸入時，世界模型必須能輸出世界的后續(xù)狀態(tài)（隱式或顯式）。當(dāng)僅輸入動作時，模型應(yīng)生成與歷史狀態(tài)、目標(biāo)設(shè)定及語義物理規(guī)律一致的結(jié)果。隨著模型能力提升，在給定目標(biāo)時，模型不僅可預(yù)測世界狀態(tài)，還能推導(dǎo)達(dá)成目標(biāo)的后續(xù)行動序列。

這項挑戰(zhàn)的維度超越AI以往任何課題。

語言作為人類認(rèn)知的生成現(xiàn)象遵循相對簡單的規(guī)則，而世界運行法則遠(yuǎn)為復(fù)雜。以地球為例，重力制約運動，原子結(jié)構(gòu)決定光色，無數(shù)物理定律約束著每次相互作用。即便最天馬行空的虛擬世界，其構(gòu)成元素也需遵循設(shè)定的物理與動態(tài)規(guī)則。協(xié)調(diào)語義、幾何、動態(tài)與物理的一致性，需要全新方法論。表征世界的維度復(fù)雜度遠(yuǎn)超語言這類一維序列信號。要實現(xiàn)人類級的通用世界模型，還需突破多項技術(shù)壁壘，而這正是World Labs研究團隊致力攻克的方向。

我們當(dāng)前的重點課題包括：

新型通用訓(xùn)練目標(biāo)函數(shù)：為世界模型定義一個如LLM中"下一token預(yù)測"般簡潔優(yōu)雅的通用目標(biāo)函數(shù)，始終是該領(lǐng)域的核心課題。由于世界模型輸入與輸出空間的高度復(fù)雜性，此類函數(shù)的構(gòu)建本就困難重重。盡管前路漫漫，但這項目標(biāo)函數(shù)及其對應(yīng)表征必須遵循幾何與物理定律，恪守世界模型作為想象與現(xiàn)實根基的基本特質(zhì)。

大規(guī)模訓(xùn)練數(shù)據(jù)：訓(xùn)練世界模型所需的數(shù)據(jù)復(fù)雜度遠(yuǎn)超文本處理。值得慶幸的是，海量數(shù)據(jù)源已然存在，網(wǎng)絡(luò)上的圖像與視頻集合構(gòu)成了豐富的訓(xùn)練素材，關(guān)鍵在于開發(fā)能從這些二維視覺信號（即RGB幀）中提取深層空間信息的算法。過去十年研究已證明，數(shù)據(jù)規(guī)模與模型能力間的縮放定律在語言領(lǐng)域的威力。對世界模型而言，突破點在于構(gòu)建能同等規(guī)模利用視覺數(shù)據(jù)的架構(gòu)。此外，高質(zhì)量合成數(shù)據(jù)以及深度、觸覺等多模態(tài)信息同樣不可或缺，它們能在訓(xùn)練關(guān)鍵階段有效補充網(wǎng)絡(luò)數(shù)據(jù)。但前進之路仍取決于更先進的傳感系統(tǒng)、更穩(wěn)健的信號提取算法，以及更強大的神經(jīng)模擬方法。

新型模型架構(gòu)與表征學(xué)習(xí)：世界模型研究必將推動模型架構(gòu)與學(xué)習(xí)算法的革新，尤其需要突破當(dāng)前多模態(tài)大模型與視頻擴散范式的局限。現(xiàn)有方法通常將數(shù)據(jù)轉(zhuǎn)換為二維序列，這使簡單空間任務(wù)（如統(tǒng)計視頻中椅子數(shù)量、回憶房間此前樣貌）變得異常困難。三維/四維感知的token化、上下文構(gòu)建與記憶機制等替代架構(gòu)或許能開辟新徑。例如，我們在World Labs開發(fā)的實時生成框架模型RTFM就體現(xiàn)了這種轉(zhuǎn)變，通過空間錨定的幀記憶體系，在保持生成世界持續(xù)性的同時實現(xiàn)高效實時生成。

顯然，在通過世界模型完全釋放空間智能的潛力之前，我們?nèi)悦媾R嚴(yán)峻挑戰(zhàn)。但這不僅是理論探索，更是催生新一代創(chuàng)意與生產(chǎn)力工具的核心引擎。令人振奮的是，World Labs已取得積極進展。我們近期向部分用戶展示了首款世界模型Marble的雛形，該模型能通過多模態(tài)提示生成并維持一致的3D環(huán)境，支持創(chuàng)作者在工作流中進行探索、互動與深度開發(fā)，我們正全力推動其早日公開。

Marble僅是我們構(gòu)建真正空間智能世界模型的第一步。隨著研究加速，學(xué)界、業(yè)界與用戶正逐漸認(rèn)識到其非凡潛力。下一代世界模型將使機器實現(xiàn)全新維度的空間智能，這項突破將解鎖當(dāng)前AI系統(tǒng)普遍缺失的關(guān)鍵能力。

運用世界模型，為人類構(gòu)建更美好的世界

驅(qū)動AI發(fā)展的初心至關(guān)重要。作為參與開創(chuàng)現(xiàn)代AI時代的科學(xué)家之一，我的信念始終明確：AI必須增強人類能力，而非取代人類。

多年來，我始終致力于讓人工智能的發(fā)展、部署與治理符合人類需求。在這個技術(shù)烏托邦與末日預(yù)言盛行的時代，我依然秉持務(wù)實態(tài)度：AI由人創(chuàng)造、為人所用、受人監(jiān)管，必須始終尊重人類的能動性與尊嚴(yán)。

AI的魅力在于拓展我們的能力邊界，讓我們更具創(chuàng)造力、聯(lián)系更緊密、效率更高、生活更充實。空間智能正是這一愿景的體現(xiàn)：它賦能創(chuàng)作者、護理者、科學(xué)家和夢想家，去實現(xiàn)曾經(jīng)不可能完成的目標(biāo)。正是這一信念，驅(qū)使我將空間智能視為AI的下一偉大前沿。

空間智能的應(yīng)用將分階段展開：創(chuàng)意工具正在涌現(xiàn)，World Labs的Marble已將這種能力交到創(chuàng)作者和敘事者手中。機器人技術(shù)是充滿雄心的中期目標(biāo)，需要我們完善感知與行動的閉環(huán)。而最具變革性的科學(xué)應(yīng)用雖需更長時間，但必將對人類繁榮產(chǎn)生深遠(yuǎn)影響。

在這些時間線上，有幾個領(lǐng)域因其重塑人類能力的潛力而尤為突出。這需要集體的巨大努力，遠(yuǎn)非單個團隊或公司所能及。它需要整個AI生態(tài)系統(tǒng)的共同參與，包括研究人員、創(chuàng)新者、創(chuàng)業(yè)者、企業(yè)乃至政策制定者，朝著共同愿景努力。但這個愿景值得追求。

未來圖景如下：

創(chuàng)造力：為敘事與沉浸體驗注入超能力

我最喜歡的愛因斯坦名言是："創(chuàng)意，是智慧的樂趣。"

早在文字出現(xiàn)之前，人類就開始講故事，并將它們繪于洞穴墻壁，代代相傳，在共同敘事上建立整個文化。故事是我們理解世界、跨越時空連接彼此、探索人性真諦的方式，最重要的是，它是我們尋找生命與愛的意義的途徑。如今，空間智能有潛力以尊重故事本質(zhì)的方式，變革我們創(chuàng)造和體驗敘事的方法，并將其影響力從娛樂延伸至教育，從設(shè)計拓展到建造等領(lǐng)域。

World Labs的Marble平臺將為電影制作人、游戲設(shè)計師、建筑師及各類敘事者提供前所未有的空間能力和編輯控制力，使他們能夠快速創(chuàng)建并迭代完全可探索的3D世界，而無需傳統(tǒng)3D設(shè)計軟件的沉重負(fù)擔(dān)。創(chuàng)作行為依然如既往般重要且充滿人性，AI工具只是放大并加速了創(chuàng)作者的成就。這包括：

新維度的敘事體驗：電影制作人和游戲設(shè)計師正使用Marble，突破預(yù)算和地域限制創(chuàng)造完整世界，探索傳統(tǒng)制作流程難以實現(xiàn)的各種場景和視角。隨著不同媒體和娛樂形式界限的模糊化，我們正迎來融合藝術(shù)、模擬與游玩的全新互動體驗——個性化世界，任何人（不僅是工作室）都能創(chuàng)造并沉浸于自己的故事中。隨著將概念和故事板快速轉(zhuǎn)化為完整體驗的新方法興起，敘事將不再局限于單一媒介，創(chuàng)作者可以自由地在無數(shù)平臺和界面上構(gòu)建具有共享主線的世界。

通過設(shè)計實現(xiàn)空間敘事：本質(zhì)上，每個制造物品或建造空間都必須在物理創(chuàng)造前進行虛擬3D設(shè)計。這一過程往往耗費大量時間與成本。借助空間智能模型，建筑師可以在投入數(shù)月時間進行設(shè)計前快速可視化結(jié)構(gòu)，漫步于尚不存在的空間，講述關(guān)于我們可能如何生活、工作和聚集的故事。工業(yè)和時尚設(shè)計師可以瞬間將想象力轉(zhuǎn)化為形態(tài)，探索物品如何與人體和空間互動。

新的沉浸式與互動體驗：人類體驗的最深層方式之一，就是創(chuàng)造意義的體驗本身。在整個人類歷史中，只有一個單一的3D世界：我們共享的物理世界。直到最近幾十年，通過游戲和早期虛擬現(xiàn)實，我們才開始窺見共享我們自己創(chuàng)造的替代世界意味著什么。現(xiàn)在，空間智能與新的設(shè)備形態(tài)（如VR、XR頭顯和沉浸式顯示器）相結(jié)合，以前所未有的方式提升了這些體驗。我們正邁向一個未來：步入完全實現(xiàn)的多維世界變得像打開書本一樣自然。空間智能使世界構(gòu)建不僅對擁有專業(yè)制作團隊的工作室開放，也對個人創(chuàng)作者、教育者以及任何有愿景要分享的人開放。

機器人技術(shù)：行走中的具身智能

從昆蟲到人類，動物都依賴空間智能來理解、導(dǎo)航和與它們的世界互動，機器人也不例外。自該領(lǐng)域誕生以來，具有空間意識的機器一直是人類的夢想，這包括我在斯坦福研究實驗室與學(xué)生和合作者所做的研究。正因為如此，我對利用World Labs正在構(gòu)建的這類模型來實現(xiàn)它們感到非常興奮。

通過世界模型擴展機器人學(xué)習(xí)：機器人學(xué)習(xí)的進展取決于可行訓(xùn)練數(shù)據(jù)的可擴展解決方案。考慮到機器人必須學(xué)習(xí)理解、推理、規(guī)劃以及交互的能力，它們需要覆蓋極為龐大的狀態(tài)空間。許多人推測，需要結(jié)合互聯(lián)網(wǎng)數(shù)據(jù)、合成模擬和真實世界的人類演示捕捉，才能真正創(chuàng)造出可推廣的機器人。但與語言模型不同，機器人研究的訓(xùn)練數(shù)據(jù)稀缺。世界模型將在這方面起決定性作用。隨著它們提高感知保真度和計算效率，世界模型的輸出可以迅速縮小模擬與現(xiàn)實之間的差距。這將反過來幫助在無數(shù)狀態(tài)、互動和環(huán)境的模擬中訓(xùn)練機器人。

伙伴與協(xié)作者：作為人類協(xié)作者的機器人，無論是在實驗室協(xié)助科學(xué)家，還是幫助獨居老人，都可以在急需更多勞動力和生產(chǎn)力的部分領(lǐng)域發(fā)揮作用。但這樣做需要機器人具備空間智能，能夠感知、推理、規(guī)劃和行動，最重要的是，它們需要保持與人類目標(biāo)和行為一致。例如，實驗室機器人可以替代科學(xué)家完成儀器操作，讓他們專注于需要靈活性或推理的任務(wù)，而家庭助理可以幫助老年人做飯，同時不減少他們的樂趣或自主性。真正能夠預(yù)測符合此期望的下一個狀態(tài)甚至可能動作的空間智能世界模型，對于實現(xiàn)這一目標(biāo)至關(guān)重要。

擴展具身形態(tài)：人形機器人在我們?yōu)樽约航ㄔ斓氖澜缰姓加幸幌亍５珓?chuàng)新的全部益處將來自更加多樣化的設(shè)計：運送藥物的納米機器人、在狹窄空間導(dǎo)航的軟體機器人，以及為深海或外太空建造的機器。無論其形態(tài)如何，未來的空間智能模型必須整合這些機器人所處的環(huán)境及其自身的具身感知和運動。但開發(fā)這些機器人的一個關(guān)鍵挑戰(zhàn)是缺乏各種具身形態(tài)的訓(xùn)練數(shù)據(jù)。世界模型將在這些工作的模擬數(shù)據(jù)、訓(xùn)練環(huán)境和基準(zhǔn)測試任務(wù)中發(fā)揮關(guān)鍵作用。

更長遠(yuǎn)的前景：科學(xué)、醫(yī)療保健與教育

除了創(chuàng)意和機器人應(yīng)用，空間智能的深遠(yuǎn)影響還將延伸至更多能夠增強人類能力、拯救生命、加速發(fā)現(xiàn)的領(lǐng)域。我重點介紹以下三個可以產(chǎn)生深刻變革的應(yīng)用領(lǐng)域，盡管不用說，空間智能的用例確實跨越了更多行業(yè)。

在科學(xué)研究中，空間智能系統(tǒng)可以模擬實驗、并行驗證假設(shè)，并探索人類無法到達(dá)的環(huán)境，比如深海或遙遠(yuǎn)的行星。這項技術(shù)可以改變氣候科學(xué)和材料研究等領(lǐng)域的計算建模。通過將多維模擬與真實世界數(shù)據(jù)收集相結(jié)合，這些工具可以降低計算門檻，擴展每個實驗室可以觀察和理解的范圍。

在醫(yī)療保健領(lǐng)域，空間智能將重塑從實驗室到病床的方方面面。在斯坦福大學(xué)，我的學(xué)生和合作者花了多年時間與醫(yī)院、養(yǎng)老院和在家中的患者合作。這段經(jīng)歷讓我相信空間智能在這里具有變革潛力。AI可以通過多維建模分子相互作用來加速藥物發(fā)現(xiàn)，通過幫助放射科醫(yī)生發(fā)現(xiàn)醫(yī)學(xué)影像中的模式來增強診斷，并實現(xiàn)環(huán)境監(jiān)測系統(tǒng)，在不取代康復(fù)所需的人際聯(lián)系的情況下支持患者和護理人員，更不用說機器人在許多不同場景下幫助我們的醫(yī)護人員和患者的潛力。

在教育領(lǐng)域，空間智能可以實現(xiàn)沉浸式學(xué)習(xí)，使抽象或復(fù)雜的概念變得有形，并創(chuàng)造對我們大腦和身體學(xué)習(xí)方式至關(guān)重要的迭代體驗。在AI時代，對于學(xué)齡兒童和成人來說，更快、更有效的學(xué)習(xí)和再技能培訓(xùn)的需求尤為重要。學(xué)生可以探索細(xì)胞機制或多維度地走進歷史事件，教師獲得通過互動環(huán)境個性化教學(xué)的工具。而外科醫(yī)生、工程師等專業(yè)人士則能在高度逼真的仿真環(huán)境中安全地練習(xí)復(fù)雜技能。

跨越所有這些領(lǐng)域，可能性是無限的，但目標(biāo)始終如一：增強人類專業(yè)知識、加速人類發(fā)現(xiàn)并放大人類關(guān)懷的AI，而不是取代作為人類核心的判斷力、創(chuàng)造力和同理心。

過去十年，AI已成為一種全球現(xiàn)象，并成為技術(shù)、經(jīng)濟甚至地緣政治的轉(zhuǎn)折點。但作為一名研究人員、教育工作者和創(chuàng)業(yè)者，最讓我受鼓舞的仍然是圖靈75年前提出問題背后的精神。我依然與他共享那份好奇，正是這份好奇激勵我每天探索空間智能。

有史以來第一次，我們有望建造出與物理世界高度契合的機器，讓我們可以將它們視為我們面臨的最大挑戰(zhàn)中的真正伙伴。無論是在實驗室加速我們理解疾病的方式，徹底改變我們講故事的方式，還是在我們因疾病、傷害或年老而處于最脆弱時刻時支持我們，我們都處于能夠提升我們最關(guān)心生活方面的技術(shù)的風(fēng)口浪尖。這是一個更深刻、更豐富、更有能力的生活愿景。

在大自然將近五億年前在遠(yuǎn)古動物中釋放出空間智能的第一縷曙光之后，我們幸運地成為可能很快賦予機器同樣能力的技術(shù)一代，并有幸利用這些能力為各地人民謀福祉。沒有空間智能，我們關(guān)于打造真正智能機器的夢想將不會完整。

這樣的追求始終是我的北極星。加入我，一起追尋它！■

掃碼入群可參加全年至少12場精彩閉門研討

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.