![]()
剛剛,AI教母、斯坦福大學(xué)教授李飛飛發(fā)表了一篇最新文章《從語言到世界:空間智能是AI的下一個前沿》,這篇文章是李飛飛對其25年AI生涯的深入思考
![]()
李飛飛認(rèn)為,盡管以LLM為代表的AI技術(shù)已深刻改變世界,但它們本質(zhì)上仍是“黑暗中的文字匠”——能言善辯但缺乏經(jīng)驗,知識淵博但缺乏現(xiàn)實根基
要讓AI真正理解并與物理世界互動,就必須突破語言的限制,邁向空間智能 (Spatial Intelligence)。
李飛飛認(rèn)為,空間智能將是AI的下一個前沿,它將賦能AI,使其擁有故事講述者的想象力、第一反應(yīng)者的行動力,以及科學(xué)家的空間推理精度。
為了實現(xiàn)這一目標(biāo),她提出了構(gòu)建世界模型 的框架,并詳細(xì)闡述了其三大核心能力、面臨的技術(shù)挑戰(zhàn)以及廣闊的應(yīng)用前景
全文:《從語言到世界:空間智能是AI的下一個前沿》
https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence
1950年,當(dāng)計算還不過是自動化算術(shù)和簡單邏輯時,艾倫·圖靈提出了一個至今仍回響不絕的問題:機(jī)器能思考嗎?他所預(yù)見的景象需要非凡的想象力:智能或許有朝一日可以被構(gòu)建,而非與生俱來。這一洞見后來開啟了一場名為人工智能(AI)的不懈科學(xué)探索。在我25年的人工智能生涯中,我依然被圖靈的遠(yuǎn)見所激勵。但我們離這個目標(biāo)還有多遠(yuǎn)?答案并不簡單
今天,以大語言模型(LLM)為代表的頂尖AI技術(shù)已經(jīng)開始改變我們獲取和處理抽象知識的方式。然而,它們?nèi)匀皇呛诎抵械奈淖纸常荒苎陨妻q但缺乏經(jīng)驗,知識淵博但缺乏現(xiàn)實根基。空間智能將改變我們創(chuàng)造和與真實及虛擬世界互動的方式——它將徹底革新故事敘述、創(chuàng)造力、機(jī)器人學(xué)、科學(xué)發(fā)現(xiàn)等領(lǐng)域。這,就是AI的下一個前沿。
追求視覺與空間智能,一直是指引我進(jìn)入這個領(lǐng)域的北極星。正因如此,我花費數(shù)年時間構(gòu)建了ImageNet,這是第一個大規(guī)模視覺學(xué)習(xí)和基準(zhǔn)測試數(shù)據(jù)集,也是與神經(jīng)網(wǎng)絡(luò)算法和現(xiàn)代計算(如圖形處理單元GPU)并列的、催生現(xiàn)代AI誕生的三大關(guān)鍵要素之一。正因如此,我在斯坦福的學(xué)術(shù)實驗室在過去十年里一直致力于將計算機(jī)視覺與機(jī)器人學(xué)習(xí)相結(jié)合。也正因如此,我和我的聯(lián)合創(chuàng)始人Justin Johnson、Christoph Lassner、Ben Mildenhall在一年多前創(chuàng)辦了World Labs:為了首次全面實現(xiàn)這一可能性。
在這篇文章中,我將解釋什么是空間智能,它為何重要,以及我們?nèi)绾螛?gòu)建能夠解鎖它的世界模型——其影響力將重塑創(chuàng)造力、具身智能和人類進(jìn)步空間智能:人類認(rèn)知的腳手架
AI從未如此激動人心。像LLM這樣的生成式AI模型已經(jīng)從研究實驗室走向日常生活,成為數(shù)十億人創(chuàng)造、生產(chǎn)和交流的工具。它們展示了曾被認(rèn)為不可能的能力,能夠輕松生成連貫的文本、堆積如山的代碼、逼真的圖像,甚至是短視頻片段。AI是否會改變世界,已不再是一個問題。以任何合理的定義來看,它已經(jīng)做到了。
然而,仍有太多領(lǐng)域遙不可及。自主機(jī)器人的愿景依然引人入勝但仍停留在推測階段,遠(yuǎn)未成為未來學(xué)家長期承諾的日常設(shè)備。在疾病治療、新材料發(fā)現(xiàn)和粒子物理學(xué)等領(lǐng)域,大規(guī)模加速研究的夢想在很大程度上仍未實現(xiàn)。而讓AI真正理解并賦能人類創(chuàng)造者的承諾——無論是幫助學(xué)生學(xué)習(xí)分子化學(xué)的復(fù)雜概念,協(xié)助建筑師構(gòu)想空間,輔助電影制作人構(gòu)建世界,還是為任何尋求完全沉浸式虛擬體驗的人提供支持——也仍然無法實現(xiàn)。
要了解為何這些能力仍然遙不可及,我們需要審視空間智能是如何演化的,以及它如何塑造我們對世界的理解。
視覺長期以來一直是人類智能的基石,但其力量源于某種更為根本的東西。早在動物能夠筑巢、照顧幼崽、用語言交流或建立文明之前,簡單的感知行為就已經(jīng)悄然開啟了一段通往智能的演化之旅。
這種看似孤立的、從外部世界收集信息的能力,無論是微光一閃還是質(zhì)感的觸碰,都在感知與生存之間建立了一座橋梁,并且隨著世代更迭,這座橋梁變得越來越堅固和精細(xì)。一層又一層的神經(jīng)元從這座橋梁上生長出來,形成了能夠解釋世界并協(xié)調(diào)生物體與其環(huán)境互動的神經(jīng)系統(tǒng)。因此,許多科學(xué)家推測,感知與行動構(gòu)成了驅(qū)動智能演化的核心循環(huán),也是自然創(chuàng)造我們這個物種——感知、學(xué)習(xí)、思考和行動的終極體現(xiàn)——的基礎(chǔ)。
空間智能在定義我們?nèi)绾闻c物理世界互動方面扮演著基礎(chǔ)性角色。每一天,我們都依賴它來完成最普通的行為:通過想象保險杠與路沿之間不斷縮小的間隙來停車,接住別人從房間另一頭扔過來的鑰匙,在擁擠的人行道上穿行而避免碰撞,或者睡眼惺忪地不看杯子就把咖啡倒進(jìn)去。在更極端的情況下,消防員在濃煙滾滾、不斷坍塌的建筑中穿行,對結(jié)構(gòu)的穩(wěn)定性和生存機(jī)會做出瞬間判斷,通過手勢、肢體語言和一種無法用語言替代的共同職業(yè)本能進(jìn)行交流。而孩子們則在他們能夠說話之前的數(shù)月或數(shù)年里,通過與環(huán)境的嬉戲互動來學(xué)習(xí)世界。所有這一切都發(fā)生得直觀而自然——這是機(jī)器尚未達(dá)到的流暢程度。
空間智能也是我們想象力和創(chuàng)造力的基礎(chǔ)。故事講述者在腦海中創(chuàng)造出異常豐富的世界,并利用多種視覺媒介將其呈現(xiàn)給他人,從古代的洞穴壁畫到現(xiàn)代電影,再到沉浸式視頻游戲。無論是孩子們在沙灘上堆沙堡,還是在電腦上玩《我的世界》,基于空間的想象力構(gòu)成了真實或虛擬世界中互動體驗的基礎(chǔ)。在許多工業(yè)應(yīng)用中,對物體、場景和動態(tài)交互環(huán)境的模擬,為從工業(yè)設(shè)計到數(shù)字孿生再到機(jī)器人訓(xùn)練等無數(shù)關(guān)鍵商業(yè)用例提供了動力。
歷史上充滿了空間智能發(fā)揮核心作用、定義文明進(jìn)程的時刻。在古希臘,埃拉托斯特尼將影子轉(zhuǎn)化為幾何學(xué)——在太陽直射賽伊尼城的那一刻,他在亞歷山大城測量出7度的夾角——從而計算出地球的周長。哈格里夫斯的“珍妮紡紗機(jī)”通過一個空間上的洞察徹底改變了紡織制造業(yè):將多個紡錘并排布置在一個框架中,使得一個工人能同時紡多根線,生產(chǎn)效率提高了八倍。沃森和克里克通過親手搭建3D分子模型發(fā)現(xiàn)了DNA的結(jié)構(gòu),他們不斷擺弄金屬片和金屬絲,直到堿基對的空間排列“咔噠”一聲完美契合。在每一個案例中,當(dāng)科學(xué)家和發(fā)明家需要操縱物體、構(gòu)想結(jié)構(gòu)并對物理空間進(jìn)行推理時,空間智能都推動了文明的進(jìn)步——這些都無法僅用文字來捕捉。
空間智能是我們認(rèn)知構(gòu)建的腳手架。無論我們是被動觀察還是主動創(chuàng)造,它都在發(fā)揮作用。它驅(qū)動著我們的推理和規(guī)劃,即使是在最抽象的話題上。它對于我們互動的方式至關(guān)重要——無論是口頭的還是身體的,無論是與同伴還是與環(huán)境本身。雖然我們大多數(shù)人并非每天都在揭示像埃拉托斯特尼那樣的宇宙真理,但我們?nèi)粘5乃伎挤绞脚c他并無二致——通過感官感知復(fù)雜的世界,然后利用一種直觀的、基于物理和空間術(shù)語的理解來領(lǐng)悟其運作方式。
不幸的是,今天的AI還不能像這樣思考。
過去幾年確實取得了巨大進(jìn)步。多模態(tài)大語言模型(MLLM)通過海量的多媒體數(shù)據(jù)和文本數(shù)據(jù)進(jìn)行訓(xùn)練,引入了一些基礎(chǔ)的空間意識,今天的AI可以分析圖片、回答相關(guān)問題,并生成超逼真的圖像和短視頻。通過傳感器和觸覺技術(shù)的突破,我們最先進(jìn)的機(jī)器人已經(jīng)開始能夠在高度受限的環(huán)境中操縱物體和工具。
然而,坦率地說,AI的空間能力遠(yuǎn)未達(dá)到人類水平。其局限性很快就會顯現(xiàn)。在估算距離、方向和大小,或通過從新角度重新生成來“精神上”旋轉(zhuǎn)物體等任務(wù)上,最先進(jìn)的MLLM模型的表現(xiàn)很少能超過隨機(jī)猜測。它們無法導(dǎo)航迷宮、識別捷徑或預(yù)測基本的物理現(xiàn)象。AI生成的視頻——雖然處于初級階段,但確實非常酷——往往在幾秒鐘后就失去連貫性。
雖然當(dāng)前最先進(jìn)的AI在閱讀、寫作、研究和數(shù)據(jù)模式識別方面表現(xiàn)出色,但這些相同的模型在表示或與物理世界互動時,卻存在根本性的局限。我們對世界的看法是整體的——不僅是我們正在看什么,還包括萬物在空間上如何關(guān)聯(lián),這意味著什么,以及為何重要。通過想象、推理、創(chuàng)造和互動——而不僅僅是描述——來理解這一切,正是空間智能的力量。沒有它,AI就與它試圖理解的物理現(xiàn)實脫節(jié)。它無法有效地駕駛我們的汽車,引導(dǎo)我們家庭和醫(yī)院中的機(jī)器人,為學(xué)習(xí)和娛樂創(chuàng)造全新的沉浸式和互動式體驗,或加速材料科學(xué)和醫(yī)學(xué)領(lǐng)域的發(fā)現(xiàn)。
哲學(xué)家維特根斯坦曾寫道:“我語言的極限,意味著我世界的極限。”我不是哲學(xué)家。但我知道,至少對AI而言,世界遠(yuǎn)不止于語言。空間智能代表了超越語言的前沿——這種能力連接了想象、感知和行動,并為機(jī)器真正提升人類生活開辟了可能性,從醫(yī)療保健到創(chuàng)造力,從科學(xué)發(fā)現(xiàn)到日常輔助。
AI的下一個十年:構(gòu)建真正具備空間智能的機(jī)器
那么,我們?nèi)绾螛?gòu)建具備空間智能的AI?如何才能讓模型具備埃拉托斯特尼的洞察力進(jìn)行推理,擁有工業(yè)設(shè)計師的精度進(jìn)行工程設(shè)計,懷揣故事講述者的想象力進(jìn)行創(chuàng)造,并能像第一反應(yīng)者一樣流暢地與環(huán)境互動?
構(gòu)建具備空間智能的AI需要比LLM更宏大的目標(biāo):世界模型,這是一種新型的生成式模型,其理解、推理、生成以及與語義、物理、幾何和動態(tài)上都極為復(fù)雜的世界(無論是虛擬還是真實)進(jìn)行交互的能力,遠(yuǎn)非當(dāng)今的LLM所能及。這個領(lǐng)域尚處于起步階段,當(dāng)前的方法從抽象推理模型到視頻生成系統(tǒng)不一而足。World Labs于2024年初成立,正是基于這樣的信念:基礎(chǔ)性方法仍在建立之中,這使其成為未來十年的決定性挑戰(zhàn)。
在這個新興領(lǐng)域,最重要的是確立指導(dǎo)發(fā)展的原則。對于空間智能,我通過三個核心能力來定義世界模型:
1.生成性 (Generative):世界模型能夠生成在感知、幾何和物理上保持一致的世界
解鎖空間理解和推理的世界模型,也必須能夠生成它們自己的模擬世界。它們必須能夠生成無窮無盡、多種多樣的模擬世界,這些世界遵循語義或感知的指令,同時在幾何、物理和動態(tài)上保持一致——無論其代表的是真實空間還是虛擬空間。研究界正在積極探索這些世界應(yīng)該以隱式還是顯式的方式來表示其內(nèi)在的幾何結(jié)構(gòu)。此外,除了強(qiáng)大的潛在表示,我相信一個通用的世界模型,其輸出還必須能夠為許多不同的用例生成一個明確、可觀察的世界狀態(tài)。特別是,它對當(dāng)前狀態(tài)的理解必須與它的過去——即導(dǎo)致當(dāng)前狀態(tài)的世界先前狀態(tài)——連貫地聯(lián)系在一起。
2.多模態(tài) (Multimodal):世界模型天生就是多模態(tài)的
正如動物和人類一樣,世界模型應(yīng)該能夠處理多種形式的輸入——在生成式AI領(lǐng)域被稱為“提示”。給定部分信息——無論是圖像、視頻、深度圖、文本指令、手勢還是動作——世界模型都應(yīng)預(yù)測或生成盡可能完整的世界狀態(tài)。這要求模型既能以真實視覺的保真度處理視覺輸入,又能以同等的能力解釋語義指令。這使得智能體和人類都能通過多樣化的輸入與模型就世界進(jìn)行交流,并反過來接收多樣化的輸出。
3.交互性 (Interactive):世界模型能夠根據(jù)輸入的動作輸出下一個狀態(tài)
最后,如果動作和/或目標(biāo)是世界模型提示的一部分,其輸出必須包含世界的下一個狀態(tài),無論是隱式還是顯式表示。當(dāng)只給定一個動作(無論有無目標(biāo)狀態(tài))作為輸入時,世界模型應(yīng)該產(chǎn)生一個與世界先前狀態(tài)、預(yù)期的目標(biāo)狀態(tài)(如果有的話)及其語義含義、物理定律和動態(tài)行為相一致的輸出。隨著具備空間智能的世界模型在推理和生成能力上變得更加強(qiáng)大和穩(wěn)健,可以想見,在給定目標(biāo)的情況下,世界模型本身不僅能預(yù)測世界的下一個狀態(tài),還能根據(jù)新狀態(tài)預(yù)測下一個動作。
這個挑戰(zhàn)的范圍超過了AI以往面臨的任何挑戰(zhàn)。
雖然語言是人類認(rèn)知中純粹的生成現(xiàn)象,但世界的運作規(guī)則要復(fù)雜得多。例如,在地球上,引力支配著運動,原子結(jié)構(gòu)決定了光如何產(chǎn)生顏色和亮度,無數(shù)的物理定律約束著每一次互動。即使是最奇幻、最有創(chuàng)意的世界,也是由遵循其自身物理定律和動態(tài)行為的空間物體和智能體組成的。要將所有這些——語義、幾何、動態(tài)和物理——一致地協(xié)調(diào)起來,需要全新的方法。表示一個世界的維度,遠(yuǎn)比表示像語言這樣的一維序列信號要復(fù)雜得多。要實現(xiàn)能夠提供我們?nèi)祟愃碛械哪欠N通用能力的世界模型,需要克服幾個巨大的技術(shù)障礙。在World Labs,我們的研究團(tuán)隊正致力于為實現(xiàn)這一目標(biāo)取得根本性進(jìn)展。
以下是我們當(dāng)前研究課題的一些例子:
一個新的、通用的訓(xùn)練任務(wù)函數(shù):定義一個像LLM中的“下一詞元預(yù)測”一樣簡潔優(yōu)雅的通用任務(wù)函數(shù),一直是世界模型研究的核心目標(biāo)。其輸入和輸出空間的復(fù)雜性使得這樣一個函數(shù)在形式化上 inherently more difficult。盡管仍有許多待探索之處,但這個目標(biāo)函數(shù)和相應(yīng)的表示必須反映幾何和物理定律,尊重世界模型作為想象與現(xiàn)實的根基表示的根本性質(zhì)。
大規(guī)模訓(xùn)練數(shù)據(jù):訓(xùn)練世界模型需要比文本整理復(fù)雜得多的數(shù)據(jù)。好消息是:海量的數(shù)據(jù)源已經(jīng)存在。互聯(lián)網(wǎng)規(guī)模的圖像和視頻集合代表了豐富、可及的訓(xùn)練材料——挑戰(zhàn)在于開發(fā)能夠從這些二維圖像或視頻幀信號(即RGB)中提取更深層次空間信息的算法。過去十年的研究已經(jīng)顯示了語言模型中數(shù)據(jù)量和模型大小之間的規(guī)模法則的力量;解鎖世界模型的關(guān)鍵在于構(gòu)建能夠以相當(dāng)規(guī)模利用現(xiàn)有視覺數(shù)據(jù)的架構(gòu)。此外,我不會低估高質(zhì)量合成數(shù)據(jù)以及像深度和觸覺信息等額外模態(tài)的力量。它們在訓(xùn)練過程的關(guān)鍵步驟中補(bǔ)充了互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)。但前進(jìn)的道路依賴于更好的傳感器系統(tǒng)、更穩(wěn)健的信號提取算法,以及更強(qiáng)大的神經(jīng)模擬方法。
新的模型架構(gòu)和表示學(xué)習(xí):世界模型研究將不可避免地推動模型架構(gòu)和學(xué)習(xí)算法的進(jìn)步,特別是超越當(dāng)前的MLLM和視頻擴(kuò)散范式。這兩種范式通常將數(shù)據(jù)標(biāo)記化為一維或二維序列,這使得簡單的空間任務(wù)——如數(shù)清短視頻中不重復(fù)的椅子數(shù)量,或記住一個小時前房間的樣子——變得不必要地困難。替代架構(gòu)可能會有所幫助,例如用于標(biāo)記化、上下文和記憶的3D或4D感知方法。例如,在World Labs,我們最近關(guān)于一個名為RTFM的實時生成式基于幀的模型的工作就展示了這種轉(zhuǎn)變,它使用基于空間的幀作為一種空間記憶形式,以實現(xiàn)高效的實時生成,同時保持生成世界的持久性。
顯然,在通過世界建模完全解鎖空間智能之前,我們?nèi)匀幻媾R著艱巨的挑戰(zhàn)。這項研究不僅僅是理論練習(xí),它是新一類創(chuàng)意和生產(chǎn)力工具的核心引擎。World Labs內(nèi)部的進(jìn)展令人鼓舞。我們最近與少數(shù)用戶分享了Marble的一瞥,這是有史以來第一個可以通過多模態(tài)輸入提示來生成和維持一致3D環(huán)境的世界模型,供用戶和故事講述者在他們的創(chuàng)意工作流中探索、互動和進(jìn)一步構(gòu)建。我們正在努力使其盡快向公眾開放!
Marble只是我們創(chuàng)造一個真正具備空間智能的世界模型的第一步。隨著進(jìn)展加速,研究人員、工程師、用戶和商界領(lǐng)袖都開始認(rèn)識到其非凡的潛力。下一代世界模型將使機(jī)器能夠在全新的水平上實現(xiàn)空間智能——這一成就將解鎖當(dāng)今AI系統(tǒng)中仍然普遍缺乏的核心能力。
使用世界模型為人們構(gòu)建一個更美好的世界
發(fā)展AI的動機(jī)至關(guān)重要。作為幫助開啟現(xiàn)代AI時代的科學(xué)家之一,我的動機(jī)一直很明確:AI必須增強(qiáng)人類的能力,而不是取代人類。多年來,我一直致力于將AI的開發(fā)、部署和治理與人類需求對齊。如今,技術(shù)烏托邦和末日論的極端敘事比比皆是,但我繼續(xù)持有一種更務(wù)實的觀點:AI由人開發(fā),由人使用,由人治理。它必須始終尊重人的能動性和尊嚴(yán)。它的魔力在于擴(kuò)展我們的能力;使我們更有創(chuàng)造力、更緊密連接、更高效、更有成就感。空間智能代表了這一愿景——AI賦能人類創(chuàng)造者、護(hù)理人員、科學(xué)家和夢想家,去實現(xiàn)曾經(jīng)不可能的事情。這一信念驅(qū)動著我將空間智能視為AI下一個偉大前沿的承諾。
空間智能的應(yīng)用橫跨不同的時間線。創(chuàng)意工具正在涌現(xiàn)——World Labs的Marble已經(jīng)將這些能力交到了創(chuàng)作者和故事講述者的手中。隨著我們完善感知與行動之間的循環(huán),機(jī)器人學(xué)代表了一個雄心勃勃的中期目標(biāo)。最具變革性的科學(xué)應(yīng)用將需要更長時間,但有望對人類的繁榮產(chǎn)生深遠(yuǎn)影響。
在所有這些時間線上,有幾個領(lǐng)域因其重塑人類能力的潛力而脫穎而出。這需要巨大的集體努力,遠(yuǎn)非一個團(tuán)隊或一家公司所能實現(xiàn)。它需要整個AI生態(tài)系統(tǒng)的參與——研究人員、創(chuàng)新者、企業(yè)家、公司,甚至政策制定者——共同努力實現(xiàn)一個共同的愿景。但這個愿景值得追求。以下是這個未來所包含的內(nèi)容:
創(chuàng)意:為故事敘述和沉浸式體驗注入超能力
“創(chuàng)造力是智慧在玩耍。” 這是我個人英雄阿爾伯特·愛因斯坦最喜歡的名言之一。早在書面語言出現(xiàn)之前,人類就在講述故事——將它們畫在洞穴墻壁上,代代相傳,在共同的敘事上建立起整個文化。故事是我們理解世界、跨越時空連接、探索人性意義的方式,最重要的是,在生活中尋找意義,在自我中發(fā)現(xiàn)愛。今天,空間智能有潛力改變我們創(chuàng)造和體驗敘事的方式,這種方式既尊重其根本重要性,又將其影響從娛樂擴(kuò)展到教育,從設(shè)計擴(kuò)展到建筑。
World Labs的Marble平臺將把前所未有的空間能力和編輯可控性交到電影制作人、游戲設(shè)計師、建筑師和各類故事講述者的手中,讓他們能夠快速創(chuàng)建和迭代完全可探索的3D世界,而無需傳統(tǒng)3D設(shè)計軟件的開銷。創(chuàng)造性行為仍然像以往一樣至關(guān)重要和人性化;AI工具只是放大和加速了創(chuàng)作者所能達(dá)到的成就。這包括:
新維度的敘事體驗:電影制作人和游戲設(shè)計師正在使用Marble來創(chuàng)造完整的世界,而不受預(yù)算或地理位置的限制,探索各種在傳統(tǒng)制作流程中難以處理的場景和視角。隨著不同形式的媒體和娛樂之間的界限日益模糊,我們正在接近一種全新的互動體驗,它融合了藝術(shù)、模擬和游戲——個性化的世界,其中任何人,而不僅僅是工作室,都可以創(chuàng)造并棲居于自己的故事中。隨著將概念和故事板提升為完整體驗的更新、更快捷方式的興起,敘事將不再局限于單一媒介,創(chuàng)作者可以自由地在無數(shù)的界面和平臺上構(gòu)建具有共同主線貫穿的世界。
通過設(shè)計進(jìn)行空間敘事:基本上,每一個制造出來的物體或建造的空間,在其實體創(chuàng)造之前都必須在虛擬3D中進(jìn)行設(shè)計。這個過程迭代性強(qiáng),且在時間和金錢上都成本高昂。有了具備空間智能的模型,建筑師可以在投入數(shù)月進(jìn)行設(shè)計之前快速可視化結(jié)構(gòu),漫步于尚未存在的空間中——這本質(zhì)上是在講述我們可能如何生活、工作和聚集的故事。工業(yè)和時尚設(shè)計師可以立即將想象轉(zhuǎn)化為形式,探索物體如何與人體和空間互動。
全新的沉浸式與交互式體驗:體驗本身是我們作為一個物種創(chuàng)造意義的最深層次的方式之一。在整個人類歷史上,只有一個單一的3D世界:我們所有人共享的物理世界。直到最近幾十年,通過游戲和早期的虛擬現(xiàn)實(VR),我們才開始瞥見共享我們自己創(chuàng)造的替代世界意味著什么。現(xiàn)在,空間智能與新的設(shè)備形態(tài)(如VR和擴(kuò)展現(xiàn)實(XR)頭顯及沉浸式顯示器)相結(jié)合,以前所未有的方式提升了這些體驗。我們正接近一個未來,在這個未來中,踏入完全實現(xiàn)的多維世界將像打開一本書一樣自然。空間智能使世界構(gòu)建不再僅僅是擁有專業(yè)制作團(tuán)隊的工作室的專利,而是對個人創(chuàng)作者、教育者和任何有愿景分享的人開放。
機(jī)器人:具身智能的實踐
從昆蟲到人類,動物都依賴空間智能來理解、導(dǎo)航和與它們的世界互動。機(jī)器人也不例外。具備空間感知能力的機(jī)器自該領(lǐng)域誕生之初就是其夢想,這也包括我自己與我的學(xué)生和合作者在斯坦福研究實驗室的工作。這也是為什么我如此興奮于利用World Labs正在構(gòu)建的這類模型來實現(xiàn)它們的可能性。
通過世界模型擴(kuò)展機(jī)器人學(xué)習(xí):機(jī)器人學(xué)習(xí)的進(jìn)展取決于一個可行的訓(xùn)練數(shù)據(jù)的可擴(kuò)展解決方案。考慮到機(jī)器人必須學(xué)習(xí)去理解、推理、規(guī)劃和互動的巨大狀態(tài)空間,許多人推測,需要結(jié)合互聯(lián)網(wǎng)數(shù)據(jù)、合成模擬和真實世界的人類演示捕捉,才能真正創(chuàng)造出具有泛化能力的機(jī)器人。但與語言模型不同,當(dāng)今機(jī)器人研究的訓(xùn)練數(shù)據(jù)稀缺。世界模型將在此扮演決定性角色。隨著它們感知保真度和計算效率的提高,世界模型的輸出可以迅速縮小模擬與現(xiàn)實之間的差距。這反過來將有助于在無數(shù)狀態(tài)、互動和環(huán)境的模擬中訓(xùn)練機(jī)器人。
成為伙伴與合作者:機(jī)器人作為人類的合作者,無論是輔助實驗室的科學(xué)家,還是協(xié)助獨居的老人,都可以擴(kuò)充急需更多勞動力和生產(chǎn)力的部分勞動力市場。但要做到這一點,需要空間智能能夠感知、推理、規(guī)劃和行動,同時——這一點最重要——與人類的目標(biāo)和行為保持共情對齊。例如,一個實驗室機(jī)器人可以處理儀器,讓科學(xué)家專注于需要靈巧或推理的任務(wù),而一個家庭助理可以幫助老年人做飯,而不會削弱他們的快樂或自主性。能夠預(yù)測與此期望一致的下一個狀態(tài)甚至可能是下一個動作的、真正具備空間智能的世界模型,對于實現(xiàn)這一目標(biāo)至關(guān)重要。
擴(kuò)展具身智能的形式:人形機(jī)器人在我們?yōu)樽约簶?gòu)建的世界中扮演著一個角色。但創(chuàng)新的全部好處將來自更多樣化的設(shè)計:運送藥物的納米機(jī)器人,在狹窄空間中穿行的軟體機(jī)器人,以及為深海或外太空建造的機(jī)器。無論它們的形式如何,未來的空間智能模型都必須整合這些機(jī)器人所處的環(huán)境以及它們自身的具身感知和運動。但開發(fā)這些機(jī)器人的一個關(guān)鍵挑戰(zhàn)是,在這些各種各樣的具身形態(tài)因素中缺乏訓(xùn)練數(shù)據(jù)。世界模型將在模擬數(shù)據(jù)、訓(xùn)練環(huán)境和這些工作的基準(zhǔn)測試任務(wù)中發(fā)揮關(guān)鍵作用。
更長遠(yuǎn)的未來:科學(xué)、醫(yī)療和教育
除了創(chuàng)意和機(jī)器人應(yīng)用,空間智能的深遠(yuǎn)影響還將延伸到AI能夠以拯救生命和加速發(fā)現(xiàn)的方式增強(qiáng)人類能力的領(lǐng)域。我下面重點介紹三個可以帶來深刻變革的應(yīng)用領(lǐng)域,盡管不言而喻,空間智能的用例在更多行業(yè)中都非常廣泛。
在科學(xué)研究中,具備空間智能的系統(tǒng)可以模擬實驗,并行測試假說,并探索人類無法進(jìn)入的環(huán)境——從深海到遙遠(yuǎn)的行星。這項技術(shù)可以改變氣候科學(xué)和材料研究等領(lǐng)域的計算建模。通過將多維模擬與真實世界數(shù)據(jù)收集相結(jié)合,這些工具可以降低計算門檻,并擴(kuò)展每個實驗室所能觀察和理解的范圍。
在醫(yī)療健康領(lǐng)域,空間智能將重塑從實驗室到病床的一切。在斯坦福,我的學(xué)生和合作者多年來一直與醫(yī)院、老年護(hù)理機(jī)構(gòu)和居家患者合作。這段經(jīng)歷讓我確信了空間智能在此處的變革潛力。AI可以通過多維建模分子相互作用來加速藥物發(fā)現(xiàn),通過幫助放射科醫(yī)生在醫(yī)學(xué)影像中發(fā)現(xiàn)模式來增強(qiáng)診斷,并實現(xiàn)環(huán)境監(jiān)測系統(tǒng),在不取代治愈所需的人際連接的情況下支持患者和護(hù)理人員,更不用說機(jī)器人在許多不同環(huán)境中幫助我們的醫(yī)護(hù)人員和患者的潛力。
在教育領(lǐng)域,空間智能可以實現(xiàn)沉浸式學(xué)習(xí),使抽象或復(fù)雜的概念變得具體可感,并創(chuàng)造對于我們大腦和身體學(xué)習(xí)方式至關(guān)重要的迭代體驗。在AI時代,更快、更有效的學(xué)習(xí)和再培訓(xùn)的需求對學(xué)齡兒童和成年人都尤為重要。學(xué)生可以在多維度中探索細(xì)胞機(jī)制或漫步于歷史事件。教師獲得了通過互動環(huán)境進(jìn)行個性化教學(xué)的工具。專業(yè)人士——從外科醫(yī)生到工程師——可以在逼真的模擬中安全地練習(xí)復(fù)雜技能。
在所有這些領(lǐng)域中,可能性是無限的,但目標(biāo)始終如一:AI增強(qiáng)人類專長,加速人類發(fā)現(xiàn),并放大人類關(guān)懷——而不是取代作為人類核心的判斷力、創(chuàng)造力和同理心。
結(jié)論
過去十年見證了AI成為一個全球現(xiàn)象,以及技術(shù)、經(jīng)濟(jì)乃至地緣政治的轉(zhuǎn)折點。但作為一名研究者、教育者,以及現(xiàn)在的創(chuàng)業(yè)者,最能激勵我的,仍然是圖靈在75年前提出的那個問題背后的精神。我仍然分享著他的那份驚奇感。正是這種感覺,讓我每天都為空間智能的挑戰(zhàn)而充滿活力。
歷史上第一次,我們有望構(gòu)建出與物理世界如此協(xié)調(diào)的機(jī)器,以至于我們可以依賴它們作為我們應(yīng)對所面臨的最大挑戰(zhàn)的真正伙伴。無論是在實驗室中加速我們對疾病的理解,徹底改變我們講述故事的方式,還是在我們因疾病、受傷或年老而最脆弱的時刻支持我們,我們正處在一個技術(shù)突破的關(guān)口,這項技術(shù)將提升我們最珍視的生活品質(zhì)。這是一個關(guān)于更深刻、更豐富、更強(qiáng)大生活的愿景。
在自然界于近五億年前在遠(yuǎn)古動物身上釋放出空間智能的第一縷微光之后,我們有幸成為可能很快將同樣能力賦予機(jī)器的那一代技術(shù)人員——并且有幸利用這些能力造福世界各地的人們。沒有空間智能,我們關(guān)于真正智能機(jī)器的夢想就不會完整
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.