<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      李飛飛最新硬核長文|ChatGPT們都錯了方向,空間智能才是下一個十年

      0
      分享至


      AI界的"視覺教母"李飛飛在其個人Substack發(fā)布重磅長文《From Words to Worlds: Spatial Intelligence is AI's Next Frontier》,迅速引發(fā)學(xué)術(shù)界和科技圈熱議。


      作為構(gòu)建ImageNet、開啟現(xiàn)代AI視覺革命的領(lǐng)軍人物,李飛飛這次給出了一個明確判斷:空間智能是AI的下一個前沿。她指出,當(dāng)前大語言模型雖然能寫能聊,但本質(zhì)上是"黑暗中的雄辯家"——對真實三維世界、物理規(guī)律、空間關(guān)系幾乎一無所知。

      為此,她創(chuàng)立的World Labs正在構(gòu)建"世界模型"(World Models),并首次公開了首個產(chǎn)品Marble——全球首個能生成一致3D環(huán)境的世界模型。這將是繼大語言模型之后,AI的下一次范式革命。

      以下是對這篇文章的完整編譯:

      核心要點速覽(TLDR)

      ?當(dāng)前AI的本質(zhì)缺陷:大語言模型就像"坐在黑屋子里的文學(xué)家"——能說會道、知識豐富,但對真實世界一無所知。它們連最基本的空間任務(wù)都做不好:判斷距離、旋轉(zhuǎn)物體、預(yù)測物理運動的準(zhǔn)確率接近瞎猜。

      ?空間智能才是智能的根基:人類和動物的智能不是從語言開始的,而是從5億年前最原始的"感知-行動"循環(huán)進(jìn)化而來。我們停車、接鑰匙、在人群中穿行,都依賴空間智能——這是比語言更底層的能力。

      ?世界模型是解決方案:李飛飛提出需要構(gòu)建全新的AI架構(gòu)——不是改進(jìn)LLM,而是開發(fā)能理解3D空間、物理規(guī)律和動態(tài)變化的"世界模型"。這比語言模型復(fù)雜得多,因為世界不是一維序列,而是多維的、受物理定律約束的。

      ?世界模型的三項核心能力

      • 能把現(xiàn)實或想象的場景轉(zhuǎn)化為精確的3D空間表示

      • 能生成符合物理規(guī)律、幾何一致、時間連貫的虛擬世界

      • 能預(yù)測"如果我這樣做,世界會變成什么樣"

      ?技術(shù)挑戰(zhàn)極其艱巨:需要解決三個難題——找到類似"預(yù)測下一個詞"那樣簡單優(yōu)雅的訓(xùn)練方法;從海量圖像視頻中提取3D信息;設(shè)計能處理4維時空數(shù)據(jù)的全新神經(jīng)網(wǎng)絡(luò)架構(gòu)。

      ?Marble是第一個吃螃蟹的產(chǎn)品:World Labs推出了全球首個能用文字、圖片等多種方式"召喚"出可探索3D世界的AI系統(tǒng)。電影人、游戲設(shè)計師、建筑師可以像指揮一樣創(chuàng)造場景,而不需要學(xué)復(fù)雜的3D建模軟件。

      ?應(yīng)用前景分三步走

      • 馬上能用:創(chuàng)意工具革命,普通人也能做大片級別的場景

      • 五年左右:機(jī)器人學(xué)習(xí)大爆發(fā),通過虛擬世界訓(xùn)練解決數(shù)據(jù)不足問題

      • 十年以上:科學(xué)研究加速器,在虛擬世界里做藥物實驗、材料測試、氣候模擬

      ?李飛飛的AI哲學(xué):“AI必須增強(qiáng)人類,而非取代人類?!?她反復(fù)強(qiáng)調(diào),空間智能不是為了讓機(jī)器搶走人類的工作,而是讓創(chuàng)作者更有創(chuàng)造力、讓科學(xué)家更高效、讓老人和病人得到更好的照顧。

      ?歷史意義的類比:這次革命就像埃拉托色尼用影子測地球、沃森用鐵絲模型發(fā)現(xiàn)DNA一樣——都是用空間思維突破人類認(rèn)知邊界?,F(xiàn)在輪到我們把這種能力給機(jī)器了。

      ?為什么現(xiàn)在是關(guān)鍵節(jié)點:ImageNet催生了視覺AI,Transformer催生了語言AI,而世界模型將開啟"空間AI"時代。李飛飛認(rèn)為這是未來十年最重要的技術(shù)方向,基礎(chǔ)架構(gòu)還在摸索階段,正是布局的最佳時機(jī)。

      ?World Labs的研究方向:他們正在攻克實時生成技術(shù)(最新成果RTFM模型用"空間記憶幀"保持世界一致性)、合成數(shù)據(jù)生成、3D/4D感知架構(gòu)——目標(biāo)是讓AI像人類一樣"看一眼就知道空間關(guān)系"。

      ?最打動人的一句話:愛因斯坦說"創(chuàng)造力是智力在玩耍"。李飛飛說,空間智能就是要讓AI也能"玩耍"——不是機(jī)械地執(zhí)行任務(wù),而是真正理解、想象和創(chuàng)造世界。

      ?對創(chuàng)作者的承諾:未來你不需要幾百萬預(yù)算和專業(yè)團(tuán)隊,一個人就能創(chuàng)造出《阿凡達(dá)》級別的虛擬世界。AI處理技術(shù)細(xì)節(jié),你專注于講故事和創(chuàng)意本身。

      ?呼吁整個行業(yè)參與:這不是一家公司能完成的任務(wù),需要全球研究者、工程師、企業(yè)、政策制定者一起努力。李飛飛把這稱為她的"北極星" ——邀請所有人加入這場探索。

      從語言到世界:空間智能是AI的下一個前沿

      1950年,當(dāng)計算僅僅是自動化算術(shù)和簡單邏輯時,艾倫·圖靈提出了一個至今仍回響不絕的問題:機(jī)器能思考嗎?能看到他所見的未來,需要非凡的想象力:智能或許有朝一日可以被構(gòu)建,而非僅能天生。這一洞見后來開啟了一場名為"人工智能"(AI)的不懈科學(xué)探索。進(jìn)入AI領(lǐng)域25年后,我仍然深受圖靈愿景的鼓舞。但我們離目標(biāo)有多近?答案并不簡單。

      今天,大語言模型(LLM)等領(lǐng)先AI技術(shù)已經(jīng)開始改變我們獲取和處理抽象知識的方式。然而,它們?nèi)允?b>黑暗中的文字匠人——雄辯卻缺乏經(jīng)驗,博學(xué)卻不接地氣。空間智能將徹底改變我們創(chuàng)造和互動真實及虛擬世界的方式——革新敘事、創(chuàng)意、機(jī)器人、科學(xué)發(fā)現(xiàn)等諸多領(lǐng)域。這,正是AI的下一個前沿。

      對視覺和空間智能的追求,一直是我進(jìn)入這個領(lǐng)域以來的北極星。這就是為什么我花費多年構(gòu)建ImageNet——首個大規(guī)模視覺學(xué)習(xí)和基準(zhǔn)測試數(shù)據(jù)集,也是催生現(xiàn)代AI的三大關(guān)鍵要素之一(另外兩個是神經(jīng)網(wǎng)絡(luò)算法和GPU等現(xiàn)代算力)。這就是為什么我在斯坦福的學(xué)術(shù)實驗室過去十年一直在將計算機(jī)視覺與機(jī)器人學(xué)習(xí)結(jié)合。也正因如此,我和聯(lián)合創(chuàng)始人Justin Johnson、Christoph Lassner、Ben Mildenhall在一年多前創(chuàng)立了World Labs:首次全面實現(xiàn)這一可能性。

      在這篇文章中,我將解釋什么是空間智能、為何它重要,以及我們?nèi)绾螛?gòu)建能夠解鎖它的世界模型——這些模型的影響將重塑創(chuàng)造力、具身智能和人類進(jìn)步。

      AI的激動時刻與未竟之夢

      AI從未如此令人興奮。生成式AI模型如LLM已從研究實驗室走入日常生活,成為數(shù)十億人創(chuàng)造、生產(chǎn)和交流的工具。它們展現(xiàn)了曾被認(rèn)為不可能的能力——生成連貫的文本、海量代碼、逼真的圖像,甚至是短視頻片段。AI是否會改變世界已不再是問題。按任何合理定義,它已經(jīng)做到了。

      然而,太多事物仍遙不可及。自主機(jī)器人的愿景依然引人遐想但仍屬推測,遠(yuǎn)未成為未來學(xué)家長期承諾的日常家居設(shè)備。大幅加速疾病治療、新材料發(fā)現(xiàn)、粒子物理等領(lǐng)域研究的夢想基本未能實現(xiàn)。而那個真正理解并賦能人類創(chuàng)造者的AI承諾——無論是學(xué)習(xí)分子化學(xué)復(fù)雜概念的學(xué)生、可視化空間的建筑師、構(gòu)建世界的電影制作人,還是任何尋求全沉浸式虛擬體驗的人——仍然遙不可及。

      要理解為何這些能力仍然難以企及,我們需要審視空間智能是如何進(jìn)化的,以及它如何塑造我們對世界的理解。

      空間智能的進(jìn)化起源

      視覺長期以來一直是人類智能的基石,但其力量源于更根本的東西。早在動物能筑巢、照顧幼崽、用語言交流或建立文明之前,簡單的感知行為就已悄然開啟了一段通往智能的進(jìn)化旅程。

      這種看似孤立的從外部世界獲取信息的能力——無論是一縷光線還是質(zhì)感的觸覺——在感知與生存之間架起了一座橋梁,這座橋梁隨著世代演進(jìn)變得愈發(fā)堅固和精細(xì)。一層層神經(jīng)元從這座橋梁生長出來,形成了解釋世界并協(xié)調(diào)有機(jī)體與環(huán)境互動的神經(jīng)系統(tǒng)。因此,許多科學(xué)家推測,感知與行動成為驅(qū)動智能進(jìn)化的核心循環(huán),也是自然創(chuàng)造我們這個物種的基礎(chǔ)——感知、學(xué)習(xí)、思考和行動的終極體現(xiàn)。

      空間智能在定義我們?nèi)绾闻c物理世界互動中扮演著根本性角色。每一天,我們都依靠它完成最普通的行為:通過想象保險杠與路緣之間逐漸縮小的間隙來停車;接住扔過房間的鑰匙;在擁擠的人行道上穿行而不碰撞;或是睡眼惺忪地把咖啡倒進(jìn)杯子而不用看。在更極端的情況下,消防員在浮動的煙霧中穿越坍塌的建筑,對穩(wěn)定性和生存做出瞬間判斷,通過手勢、肢體語言和沒有語言替代品的共享專業(yè)直覺進(jìn)行交流。兒童在能說話之前的數(shù)月或數(shù)年里,通過與環(huán)境的玩?;觼韺W(xué)習(xí)世界。所有這些都是直覺性、自動化的——而機(jī)器尚未達(dá)到的流暢性。

      空間智能也是我們想象力和創(chuàng)造力的基礎(chǔ)。講故事的人在腦海中創(chuàng)造獨特豐富的世界,并利用多種視覺媒介將它們帶給他人——從古代洞穴壁畫到現(xiàn)代電影再到沉浸式電子游戲。無論是孩子們在海灘上堆沙堡,還是在電腦上玩《我的世界》,基于空間的想象力構(gòu)成了真實或虛擬世界中互動體驗的基礎(chǔ)。在許多工業(yè)應(yīng)用中,對物體、場景和動態(tài)互動環(huán)境的模擬,為從工業(yè)設(shè)計到數(shù)字孿生再到機(jī)器人訓(xùn)練等無數(shù)關(guān)鍵商業(yè)用例提供支持。

      歷史上充滿了空間智能扮演核心角色的文明定義時刻。在古希臘,埃拉托色尼將影子轉(zhuǎn)化為幾何——在亞歷山大測量到7度角的同時,太陽在塞內(nèi)恰恰好不投影——從而計算出地球周長。哈格里夫斯的"珍妮紡紗機(jī)"通過一個空間洞見革新了紡織制造:在單個框架中并排安排多個紡錘,讓一個工人能同時紡多股線,生產(chǎn)率提高了八倍。沃森和克里克通過物理構(gòu)建3D分子模型發(fā)現(xiàn)了DNA結(jié)構(gòu),操作金屬板和金屬線,直到堿基對的空間排列咔嗒一聲到位。在每個案例中,當(dāng)科學(xué)家和發(fā)明家必須操縱物體、可視化結(jié)構(gòu)和推理物理空間時,空間智能推動了文明前進(jìn)——而這些都無法僅用文本捕捉。

      空間智能是我們認(rèn)知構(gòu)建的腳手架。無論我們是被動觀察還是主動創(chuàng)造,它都在發(fā)揮作用。它驅(qū)動我們的推理和規(guī)劃,即使是在最抽象的話題上。它對我們的互動方式至關(guān)重要——無論是口頭還是物理上,與同伴還是與環(huán)境本身。雖然我們大多數(shù)人并非每天都在埃拉托色尼的層面上揭示新真理,但我們經(jīng)常以同樣的方式思考——通過感官感知復(fù)雜世界,然后利用對物理、空間運作方式的直覺理解來理解它。

      不幸的是,今天的AI還不會這樣思考。

      當(dāng)前AI的空間能力鴻溝

      過去幾年確實取得了巨大進(jìn)步。除了文本數(shù)據(jù)外,還用海量多媒體數(shù)據(jù)訓(xùn)練的多模態(tài)LLM(MLLM)引入了一些空間意識的基礎(chǔ),當(dāng)今AI可以分析圖片、回答關(guān)于它們的問題,并生成超逼真的圖像和短視頻。通過傳感器和觸覺技術(shù)的突破,我們最先進(jìn)的機(jī)器人可以開始在高度受限的環(huán)境中操縱物體和工具。

      然而坦率地說,AI的空間能力仍遠(yuǎn)低于人類水平。而且局限很快就會顯現(xiàn)。最先進(jìn)的MLLM模型在估算距離、方向和大小方面的表現(xiàn)很少優(yōu)于隨機(jī)水平——或者"心理"旋轉(zhuǎn)物體,從新角度重新生成它們。它們無法導(dǎo)航迷宮、識別捷徑或預(yù)測基本物理。AI生成的視頻——雖然新興且確實很酷——通常在幾秒鐘后就失去連貫性。

      雖然當(dāng)前最先進(jìn)的AI可以在閱讀、寫作、研究和數(shù)據(jù)模式識別方面表現(xiàn)出色,但這些模型在表示或與物理世界互動時存在根本性局限。我們對世界的看法是整體性的——不僅是我們正在看的東西,還包括一切在空間上如何關(guān)聯(lián)、意味著什么以及為何重要。通過想象、推理、創(chuàng)造和互動來理解這一點——而不僅僅是描述——這就是空間智能的力量。沒有它,AI就與它試圖理解的物理現(xiàn)實脫節(jié)。它無法有效駕駛我們的汽車、引導(dǎo)機(jī)器人進(jìn)入我們的家庭和醫(yī)院、實現(xiàn)全新的沉浸式和互動式學(xué)習(xí)與娛樂體驗,或加速材料科學(xué)和醫(yī)學(xué)的發(fā)現(xiàn)。

      哲學(xué)家維特根斯坦曾寫道:"我的語言的界限意味著我的世界的界限。"我不是哲學(xué)家。但我至少知道對AI而言,不僅僅有文字。空間智能代表了語言之外的前沿——連接想象力、感知和行動的能力,為機(jī)器真正增強(qiáng)人類生活開辟了可能性,從醫(yī)療到創(chuàng)造力,從科學(xué)發(fā)現(xiàn)到日常協(xié)助。

      構(gòu)建空間智能AI:世界模型的三大核心能力

      那么我們?nèi)绾螛?gòu)建空間智能AI?通往能夠以埃拉托色尼的視野進(jìn)行推理、以工業(yè)設(shè)計師的精度進(jìn)行工程設(shè)計、以講故事者的想象力進(jìn)行創(chuàng)造,并以急救人員的流暢性與環(huán)境互動的模型的路徑是什么?

      構(gòu)建空間智能AI需要比LLM更雄心勃勃的東西:世界模型——一種新型生成式模型,其在理解、推理、生成和與語義、物理、幾何和動態(tài)復(fù)雜的世界(虛擬或真實)互動的能力,遠(yuǎn)超當(dāng)今LLM的能力范圍。這個領(lǐng)域仍處于初期,當(dāng)前方法從抽象推理模型到視頻生成系統(tǒng)不等。World Labs成立于2024年初,基于這樣一個信念:基礎(chǔ)方法仍在建立中,這使其成為未來十年的決定性挑戰(zhàn)。

      在這個新興領(lǐng)域,最重要的是建立指導(dǎo)發(fā)展的原則。對于空間智能,我通過三項基本能力來定義世界模型:

      1. 空間理解與推理
        解鎖空間智能的世界模型還必須生成自己的模擬世界。它們必須能夠生成無限多樣化的模擬世界,遵循語義或感知指令——同時保持幾何、物理和動態(tài)一致性——無論表示真實還是虛擬空間。研究界正在積極探索這些世界應(yīng)該在內(nèi)在幾何結(jié)構(gòu)方面隱式還是顯式表示。此外,除了強(qiáng)大的潛在表征外,我認(rèn)為通用世界模型的輸出還必須允許為許多不同用例生成明確、可觀察的世界狀態(tài)。特別是,它對現(xiàn)在的理解必須與過去連貫地聯(lián)系起來;與導(dǎo)致當(dāng)前狀態(tài)的世界先前狀態(tài)聯(lián)系起來。

      2. 多模態(tài)輸入處理
        正如動物和人類一樣,世界模型應(yīng)該能夠處理多種形式的輸入——在生成式AI領(lǐng)域被稱為"提示"。給定部分信息——無論是圖像、視頻、深度圖、文本指令、手勢還是動作——世界模型應(yīng)該盡可能完整地預(yù)測或生成世界狀態(tài)。這需要以真實視覺的保真度處理視覺輸入,同時以同等能力解釋語義指令。這使代理和人類都能通過多樣化的輸入與模型交流世界,并反過來接收多樣化的輸出。

      3. 行動預(yù)測與目標(biāo)導(dǎo)向生成
        最后,如果動作和/或目標(biāo)是世界模型提示的一部分,其輸出必須包括世界的下一個狀態(tài),以隱式或顯式表示。當(dāng)僅給定一個動作(帶或不帶目標(biāo)狀態(tài))作為輸入時,世界模型應(yīng)該產(chǎn)生與世界先前狀態(tài)、預(yù)期目標(biāo)狀態(tài)(如有)及其語義含義、物理規(guī)律和動態(tài)行為一致的輸出。隨著空間智能世界模型在推理和生成能力方面變得更加強(qiáng)大和穩(wěn)健,可以想象,在給定目標(biāo)的情況下,世界模型本身將能夠不僅預(yù)測世界的下一個狀態(tài),還能根據(jù)新狀態(tài)預(yù)測下一個動作。

      技術(shù)挑戰(zhàn):超越語言模型的復(fù)雜性

      這一挑戰(zhàn)的范圍超過了AI面臨的任何問題

      雖然語言是人類認(rèn)知的純粹生成現(xiàn)象,但世界遵循復(fù)雜得多的規(guī)則。例如在地球上,重力支配運動,原子結(jié)構(gòu)決定光如何產(chǎn)生顏色和亮度,無數(shù)物理定律約束著每一次互動。即使是最奇幻、最有創(chuàng)意的世界,也是由遵循定義它們的物理規(guī)律和動態(tài)行為的空間物體和代理組成的。以一致的方式調(diào)和所有這些——語義的、幾何的、動態(tài)的和物理的——需要全新的方法。表示世界的維度遠(yuǎn)比語言等一維序列信號復(fù)雜得多。實現(xiàn)提供我們?nèi)祟愊碛械哪欠N通用能力的世界模型,需要克服幾個艱巨的技術(shù)障礙。在World Labs,我們的研究團(tuán)隊致力于朝這一目標(biāo)取得根本性進(jìn)展。

      以下是我們當(dāng)前研究課題的一些示例:

      ? 用于訓(xùn)練的新通用任務(wù)函數(shù)
      定義一個像LLM中的下一詞預(yù)測一樣簡單優(yōu)雅的通用任務(wù)函數(shù),長期以來一直是世界模型研究的核心目標(biāo)。輸入和輸出空間的復(fù)雜性使這樣一個函數(shù)本質(zhì)上更難制定。但雖然還有很多需要探索,這個目標(biāo)函數(shù)和相應(yīng)的表征必須反映幾何和物理規(guī)律,尊重世界模型作為想象和現(xiàn)實的基礎(chǔ)表征的根本性質(zhì)。

      ? 大規(guī)模訓(xùn)練數(shù)據(jù)
      訓(xùn)練世界模型需要比文本整理復(fù)雜得多的數(shù)據(jù)。好消息是:海量數(shù)據(jù)源已經(jīng)存在?;ヂ?lián)網(wǎng)規(guī)模的圖像和視頻集合代表了豐富、可訪問的訓(xùn)練材料——挑戰(zhàn)在于開發(fā)能夠從這些基于二維圖像或視頻幀的信號(即RGB)中提取更深層空間信息的算法。過去十年的研究已經(jīng)顯示了將數(shù)據(jù)量和模型大小聯(lián)系起來的縮放定律在語言模型中的力量;世界模型的關(guān)鍵解鎖是構(gòu)建能夠以可比規(guī)模利用現(xiàn)有視覺數(shù)據(jù)的架構(gòu)。此外,我不會低估高質(zhì)量合成數(shù)據(jù)和深度、觸覺信息等額外模態(tài)的力量。它們在訓(xùn)練過程的關(guān)鍵步驟中補(bǔ)充互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)。但前進(jìn)的道路取決于更好的傳感器系統(tǒng)、更強(qiáng)大的信號提取算法,以及更強(qiáng)大的神經(jīng)模擬方法。

      ? 新模型架構(gòu)和表征學(xué)習(xí)
      世界模型研究將不可避免地推動模型架構(gòu)和學(xué)習(xí)算法的進(jìn)步,特別是超越當(dāng)前MLLM和視頻擴(kuò)散范式。這兩者通常將數(shù)據(jù)標(biāo)記化為1D或2D序列,這使得簡單的空間任務(wù)變得不必要地困難——比如計算短視頻中獨特椅子的數(shù)量,或記住一小時前房間的樣子。替代架構(gòu)可能有所幫助,例如用于標(biāo)記化、上下文和內(nèi)存的3D或4D感知方法。例如,在World Labs,我們最近在名為RTFM的實時生成基于幀的模型上的工作展示了這種轉(zhuǎn)變,它使用空間基礎(chǔ)幀作為空間記憶的一種形式,以實現(xiàn)高效的實時生成,同時在生成的世界中保持持久性。

      顯然,在我們能夠通過世界建模完全解鎖空間智能之前,我們?nèi)悦媾R著嚴(yán)峻的挑戰(zhàn)。這項研究不僅僅是理論練習(xí)。它是新一類創(chuàng)意和生產(chǎn)力工具的核心引擎。World Labs內(nèi)部的進(jìn)展令人鼓舞。我們最近向有限數(shù)量的用戶展示了Marble的一瞥——有史以來第一個世界模型,可以通過多模態(tài)輸入提示生成并維護(hù)一致的3D環(huán)境,供用戶和講故事者探索、互動,并在他們的創(chuàng)意工作流程中進(jìn)一步構(gòu)建。我們正在努力盡快向公眾開放!

      Marble只是我們創(chuàng)建真正空間智能世界模型的第一步。隨著進(jìn)展加速,研究人員、工程師、用戶和商業(yè)領(lǐng)袖都開始認(rèn)識到其非凡潛力。下一代世界模型將使機(jī)器在全新水平上實現(xiàn)空間智能——這一成就將解鎖今天AI系統(tǒng)中仍然基本缺失的關(guān)鍵能力。

      以人為本的AI發(fā)展理念

      AI開發(fā)的動機(jī)很重要。作為幫助開啟現(xiàn)代AI時代的科學(xué)家之一,我的動機(jī)一直很明確:AI必須增強(qiáng)人類能力,而非取代它。多年來,我一直致力于將AI開發(fā)、部署和治理與人類需求對齊。極端的技術(shù)烏托邦和世界末日敘事如今比比皆是,但我繼續(xù)持有更務(wù)實的觀點:AI由人開發(fā)、由人使用、由人治理。它必須始終尊重人的能動性和尊嚴(yán)。它的魔力在于擴(kuò)展我們的能力;使我們更有創(chuàng)造力、更有聯(lián)系、更高效、更充實。空間智能代表了這一愿景——賦能人類創(chuàng)造者、護(hù)理者、科學(xué)家和夢想家實現(xiàn)曾經(jīng)不可能的事情的AI。這一信念驅(qū)使我致力于將空間智能作為AI的下一個偉大前沿。

      應(yīng)用前景:從創(chuàng)意到科學(xué)的變革

      空間智能的應(yīng)用跨越不同時間線。創(chuàng)意工具正在出現(xiàn)——World Labs的Marble已經(jīng)將這些能力交到創(chuàng)造者和講故事者手中。機(jī)器人代表了一個雄心勃勃的中期愿景,隨著我們完善感知與行動之間的循環(huán)。最具變革性的科學(xué)應(yīng)用將需要更長時間,但承諾對人類繁榮產(chǎn)生深遠(yuǎn)影響。

      在所有這些時間線上,有幾個領(lǐng)域因其重塑人類能力的潛力而脫穎而出。這將需要巨大的集體努力,超過單個團(tuán)隊或公司所能實現(xiàn)的。它將需要整個AI生態(tài)系統(tǒng)的參與——研究人員、創(chuàng)新者、企業(yè)家、公司,甚至政策制定者——朝著共同愿景努力。但這個愿景值得追求。以下是未來的面貌:

      創(chuàng)意革命

      "創(chuàng)造力是智力在玩樂。"這是我個人英雄愛因斯坦最喜歡的名言之一。早在書面語言之前,人類就講故事——把它們畫在洞穴墻壁上,代代相傳,在共享敘事上建立整個文化。故事是我們理解世界、跨越距離和時間連接、探索人之為人意味著什么的方式,最重要的是,在自己內(nèi)心找到生活和愛的意義。今天,空間智能有潛力以尊重其根本重要性的方式改變我們創(chuàng)造和體驗敘事的方式,并將其影響從娛樂擴(kuò)展到教育,從設(shè)計到建筑。

      World Labs的Marble平臺將把前所未有的空間能力和編輯可控性交到電影制作人、游戲設(shè)計師、建筑師和各種講故事者手中,讓他們能夠快速創(chuàng)建和迭代完全可探索的3D世界,而無需傳統(tǒng)3D設(shè)計軟件的開銷。創(chuàng)造行為仍然像以往一樣至關(guān)重要且人性化;AI工具只是放大和加速創(chuàng)造者所能實現(xiàn)的。這包括:

      • 新維度的敘事體驗:電影制作人和游戲設(shè)計師正在使用Marble召喚整個世界,不受預(yù)算或地理限制,探索在傳統(tǒng)制作流程中難以處理的各種場景和視角。隨著不同形式媒體和娛樂之間的界限模糊,我們正在接近融合藝術(shù)、模擬和游戲的全新互動體驗——個性化的世界,任何人,而不僅僅是工作室,都可以創(chuàng)造和居住自己的故事。

      • 通過設(shè)計的空間敘事:本質(zhì)上每個制造的物體或建造的空間都必須在物理創(chuàng)建之前在虛擬3D中設(shè)計。這個過程在時間和金錢上都高度迭代且昂貴。有了空間智能模型,建筑師可以在投入數(shù)月設(shè)計之前快速可視化結(jié)構(gòu),走進(jìn)尚不存在的空間——本質(zhì)上講述關(guān)于我們?nèi)绾紊?、工作和聚集的故事?/p>

      • 新的沉浸式和互動體驗:體驗本身是我們作為物種創(chuàng)造意義的最深刻方式之一。在整個人類歷史中,只有一個單一的3D世界:我們都共享的物理世界。只有在最近幾十年,通過游戲和早期虛擬現(xiàn)實(VR),我們才開始瞥見分享我們自己創(chuàng)造的替代世界意味著什么?,F(xiàn)在,空間智能結(jié)合新的形態(tài)因素,如VR和擴(kuò)展現(xiàn)實(XR)頭顯和沉浸式顯示器,以前所未有的方式提升了這些體驗。

      機(jī)器人與具身智能

      從昆蟲到人類的動物都依賴空間智能來理解、導(dǎo)航和與他們的世界互動。機(jī)器人也不例外。自該領(lǐng)域誕生以來,空間感知機(jī)器一直是夢想,包括我在斯坦福研究實驗室與學(xué)生和合作者的工作。這也是為什么我對使用World Labs正在構(gòu)建的這類模型實現(xiàn)它們的可能性感到如此興奮。

      • 通過世界模型擴(kuò)展機(jī)器人學(xué)習(xí):機(jī)器人學(xué)習(xí)的進(jìn)展取決于可行訓(xùn)練數(shù)據(jù)的可擴(kuò)展解決方案。鑒于機(jī)器人必須學(xué)習(xí)理解、推理、規(guī)劃和互動的巨大狀態(tài)空間可能性,許多人推測需要互聯(lián)網(wǎng)數(shù)據(jù)、合成模擬和真實世界人類演示捕獲的組合才能真正創(chuàng)建可泛化的機(jī)器人。但與語言模型不同,當(dāng)今機(jī)器人研究的訓(xùn)練數(shù)據(jù)稀缺。世界模型將在其中發(fā)揮決定性作用。

      • 伴侶和協(xié)作者:作為人類協(xié)作者的機(jī)器人,無論是在實驗室工作臺上協(xié)助科學(xué)家還是協(xié)助獨居老人,都可以擴(kuò)大急需更多勞動力和生產(chǎn)力的部分勞動力。但這樣做需要感知、推理、規(guī)劃和行動的空間智能,同時——這是最重要的——與人類目標(biāo)和行為保持同理心對齊。

      • 擴(kuò)展的具身形式:類人機(jī)器人在我們?yōu)樽约航ㄔ斓氖澜缰邪l(fā)揮作用。但創(chuàng)新的全部好處將來自更多樣化的設(shè)計:輸送藥物的納米機(jī)器人、導(dǎo)航狹窄空間的軟機(jī)器人,以及為深?;蛲馓战ㄔ斓臋C(jī)器。

      科學(xué)突破與社會福祉

      除了創(chuàng)意和機(jī)器人應(yīng)用外,空間智能的深遠(yuǎn)影響還將擴(kuò)展到AI能夠以拯救生命和加速發(fā)現(xiàn)的方式增強(qiáng)人類能力的領(lǐng)域。我在下面重點介紹三個可以產(chǎn)生深刻變革的應(yīng)用領(lǐng)域,盡管不用說,空間智能的用例確實跨越更多行業(yè)。

      科學(xué)研究
      在科學(xué)研究中,空間智能系統(tǒng)可以模擬實驗,并行測試假設(shè),并探索人類無法到達(dá)的環(huán)境——從深海到遙遠(yuǎn)的星球。這項技術(shù)可以改變氣候科學(xué)和材料研究等領(lǐng)域的計算建模。

      醫(yī)療保健
      在醫(yī)療保健中,空間智能將重塑從實驗室到床邊的一切。在斯坦福,我的學(xué)生和合作者多年來一直與醫(yī)院、老年護(hù)理機(jī)構(gòu)和家中的患者合作。這一經(jīng)驗使我相信空間智能在這里的變革潛力。AI可以通過多維建模分子相互作用來加速藥物發(fā)現(xiàn),通過幫助放射科醫(yī)生發(fā)現(xiàn)醫(yī)學(xué)成像中的模式來增強(qiáng)診斷,并實現(xiàn)支持患者和護(hù)理人員的環(huán)境監(jiān)測系統(tǒng),而不會取代治愈所需的人際聯(lián)系。

      教育
      在教育中,空間智能可以實現(xiàn)沉浸式學(xué)習(xí),使抽象或復(fù)雜概念變得具象,并創(chuàng)造對我們大腦和身體如何在學(xué)習(xí)中連接至關(guān)重要的迭代體驗。在AI時代,對學(xué)齡兒童和成年人來說,更快、更有效的學(xué)習(xí)和再培訓(xùn)的需求尤為重要。學(xué)生可以探索細(xì)胞機(jī)制或多維度地走過歷史事件。

      在所有這些領(lǐng)域,可能性是無限的,但目標(biāo)保持不變:增強(qiáng)人類專業(yè)知識、加速人類發(fā)現(xiàn)、放大人類關(guān)懷的AI——而不是取代作為人類核心的判斷力、創(chuàng)造力和同理心。

      結(jié)語:我們的北極星

      過去十年,AI已成為全球現(xiàn)象,也是技術(shù)、經(jīng)濟(jì)乃至地緣政治的拐點。但作為研究者、教育者,現(xiàn)在還是企業(yè)家,最激勵我的仍然是圖靈那個75年前問題背后的精神。我仍然分享他的驚奇感。這就是空間智能的挑戰(zhàn)每天激勵我的原因。

      我們首次有機(jī)會構(gòu)建與物理世界如此協(xié)調(diào)的機(jī)器,可以將它們作為我們面臨的最大挑戰(zhàn)中的真正伙伴。無論是加速我們在實驗室中理解疾病的方式,革新我們講故事的方式,還是在我們因疾病、傷害或年齡而最脆弱的時刻支持我們,我們正處于能夠提升我們最關(guān)心的生活方面的技術(shù)的邊緣。這是一個更深刻、更豐富、更有力量的生活愿景。

      在自然在近5億年前在祖先動物中釋放空間智能的第一縷曙光后,我們有幸成為可能很快就能賦予機(jī)器同樣能力的這一代技術(shù)人員——并有特權(quán)利用這些能力造福各地人民。沒有空間智能,我們對真正智能機(jī)器的夢想將不完整

      這個追求是我的北極星。請與我一起追求它。

      https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence

      整理:周華香

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      72萬個充電樁,年入40億,常州夫婦邊賺錢邊收割,如今要上市了

      72萬個充電樁,年入40億,常州夫婦邊賺錢邊收割,如今要上市了

      毒sir財經(jīng)
      2026-02-22 10:38:14
      消息稱伊朗陸軍總司令身亡

      消息稱伊朗陸軍總司令身亡

      財聯(lián)社
      2026-02-28 17:02:22
      過去30年,中國三次忍辱負(fù)重“裝孫子”躲過美國阻擊,終迎大發(fā)展

      過去30年,中國三次忍辱負(fù)重“裝孫子”躲過美國阻擊,終迎大發(fā)展

      阿胡
      2024-06-13 14:25:16
      亞洲第一美女克拉拉超薄黑絲襪很漂亮

      亞洲第一美女克拉拉超薄黑絲襪很漂亮

      小椰的奶奶
      2026-02-28 19:35:05
      復(fù)出延續(xù)!SGA連續(xù)122場20+距離NBA歷史紀(jì)錄僅差4場

      復(fù)出延續(xù)!SGA連續(xù)122場20+距離NBA歷史紀(jì)錄僅差4場

      北青網(wǎng)-北京青年報
      2026-02-28 19:13:44
      瓜迪奧拉:從我踢球時一直到現(xiàn)在,皇馬始終擁有最頂尖的球員

      瓜迪奧拉:從我踢球時一直到現(xiàn)在,皇馬始終擁有最頂尖的球員

      懂球帝
      2026-02-28 07:59:07
      身邊的有錢人教會過你哪些道理?看完醍醐灌頂,認(rèn)知真的很重要!

      身邊的有錢人教會過你哪些道理?看完醍醐灌頂,認(rèn)知真的很重要!

      另子維愛讀史
      2026-02-22 23:33:46
      至今都讓人無法原諒的十大爛劇,每部都是影視界的奇恥大辱

      至今都讓人無法原諒的十大爛劇,每部都是影視界的奇恥大辱

      小Q侃電影
      2026-02-24 12:33:35
      8000元相親餐男子尿遁逃單!女子被迫買單,婚介甩鍋:與我們無關(guān)

      8000元相親餐男子尿遁逃單!女子被迫買單,婚介甩鍋:與我們無關(guān)

      今朝牛馬
      2026-02-01 21:14:04
      歐盟說伊朗相關(guān)事態(tài)“令人深感擔(dān)憂” 呼吁各方保持最大克制

      歐盟說伊朗相關(guān)事態(tài)“令人深感擔(dān)憂” 呼吁各方保持最大克制

      環(huán)球網(wǎng)資訊
      2026-02-28 19:48:46
      怪不得伊朗不慌!在特朗普眼皮底下,中伊悄悄搞起了導(dǎo)彈大交易

      怪不得伊朗不慌!在特朗普眼皮底下,中伊悄悄搞起了導(dǎo)彈大交易

      南權(quán)先生
      2026-02-26 15:41:29
      狂轟51分創(chuàng)紀(jì)錄!中國男籃又一18歲超級新星崛起:場均39+4沖冠

      狂轟51分創(chuàng)紀(jì)錄!中國男籃又一18歲超級新星崛起:場均39+4沖冠

      李喜林籃球絕殺
      2025-11-17 12:10:02
      美媒爆:FBI局長同美冰球隊瘋狂潑灑酒水慶祝視頻瘋傳,特朗普“失望并已表示不滿”

      美媒爆:FBI局長同美冰球隊瘋狂潑灑酒水慶祝視頻瘋傳,特朗普“失望并已表示不滿”

      環(huán)球網(wǎng)資訊
      2026-02-28 16:26:15
      雙體制內(nèi)父母崩潰,赴英讀博的獨子,竟是英國史上最危險罪犯

      雙體制內(nèi)父母崩潰,赴英讀博的獨子,竟是英國史上最危險罪犯

      云舟史策
      2026-02-28 09:56:15
      韓國《花樣男子》男演員被曝在物流中心打工,經(jīng)紀(jì)公司:屬實,為維持生計

      韓國《花樣男子》男演員被曝在物流中心打工,經(jīng)紀(jì)公司:屬實,為維持生計

      紅星新聞
      2026-02-28 12:51:22
      亞歷山大復(fù)出36+9雷霆加時滅掘金 約基奇23+17+14穆雷39+8+6

      亞歷山大復(fù)出36+9雷霆加時滅掘金 約基奇23+17+14穆雷39+8+6

      醉臥浮生
      2026-02-28 13:41:14
      安徽小伙因神似溥儀做短視頻 坦言“新的一年靠內(nèi)容闖新路”

      安徽小伙因神似溥儀做短視頻 坦言“新的一年靠內(nèi)容闖新路”

      極目新聞
      2026-02-27 18:57:51
      真當(dāng)中國不敢動手?中方向全世界宣布一件大事:退出1900億大項目

      真當(dāng)中國不敢動手?中方向全世界宣布一件大事:退出1900億大項目

      科普100克克
      2025-12-30 00:14:37
      送走馬蓉又迎來馮清,倒霉的王寶強(qiáng),終究還是逃不過“女人坑”

      送走馬蓉又迎來馮清,倒霉的王寶強(qiáng),終究還是逃不過“女人坑”

      卷史
      2026-02-15 06:08:47
      伊朗發(fā)射法塔赫高超音速導(dǎo)彈

      伊朗發(fā)射法塔赫高超音速導(dǎo)彈

      界面新聞
      2026-02-28 23:51:14
      2026-03-01 02:03:00
      硅星GenAI incentive-icons
      硅星GenAI
      比一部分人更先進(jìn)入GenAl。
      243文章數(shù) 14關(guān)注度
      往期回顧 全部

      科技要聞

      狂攬1100億美元!OpenAI再創(chuàng)融資神話

      頭條要聞

      伊朗媒體公布反擊美軍軍事行動結(jié)果

      頭條要聞

      伊朗媒體公布反擊美軍軍事行動結(jié)果

      體育要聞

      球隊主力全報銷?頂風(fēng)擺爛演都不演了

      娛樂要聞

      周杰倫兒子正面照曝光,與父親好像

      財經(jīng)要聞

      沖突爆發(fā) 市場變天?

      汽車要聞

      嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

      態(tài)度原創(chuàng)

      教育
      游戲
      房產(chǎn)
      本地
      公開課

      教育要聞

      “比預(yù)估高了20多分,激動得有點想哭!”今天有人歡呼,有人沉默,有人紅了眼眶,這一年都經(jīng)歷了什么?

      所有人保持嘴角不變!生化危機(jī):安魂曲里昂騷話大盤點

      房產(chǎn)要聞

      濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

      本地新聞

      津南好·四時總相宜

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版