<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      李飛飛李曼玲團隊發(fā)布空間理論:AI的空間智能還在三歲小孩階段

      0
      分享至

      1983 年,心理學家設(shè)計了一個簡單實驗:Sally 把彈珠放進籃子然后離開,Anne 趁她不注意把彈珠挪到盒子里。問題是,Sally 回來后,會去哪里找彈珠?

      四歲孩子能答對:去籃子,因為 Sally 不知道彈珠被移走了。三歲以下的孩子會答錯,他們分不清“自己知道”和“別人知道”的區(qū)別。這就是發(fā)展心理學里著名的 Sally-Anne 測試,它標定了人類認知發(fā)展的一道重要分水嶺。這種能力被稱為“心智理論”(Theory of Mind)。


      (動圖來源:受訪者)

      四十多年后,美國斯坦福大學李飛飛教授和美國西北大學李曼玲教授團隊把這個實驗搬到了 AI 面前,只不過這次考察的是物理世界。他們設(shè)計了一套叫“空間理論”(Theory of Space)的評估框架,目的是想弄清楚一件事:當大模型必須自己去探索、去發(fā)現(xiàn)、去拼湊信息時,它的空間智能究竟進化到了哪一級?


      圖 | 從左到右:李飛飛、李曼玲(來源:資料圖)

      從被動答題到主動探索,AI 掉了好幾個臺階

      傳統(tǒng)測試 AI 空間能力的方式,有點像開卷考試。給一張圖,問里面物體的位置關(guān)系,模型答對了就算過關(guān)。前沿模型在這種測試里得分都不錯,讓人以為它們已經(jīng)挺懂空間了。

      但李飛飛和李曼玲團隊覺得這還不夠。真實世界不是開卷考,沒有人會把所有信息一次性擺在你面前。你推開一扇門只看到客廳一角,走過走廊瞥見臥室一角,要理解整個房子的布局,你得把這些碎片拼起來,還得知道自己還有什么沒看到,下一步該往哪看。

      研究中,他們設(shè)計了一套測試環(huán)境,有文本版和視覺版兩種,讓模型在多個房間里主動探索,收集信息,構(gòu)建腦海中的認知地圖。過去評估只看最終答對答錯,這篇工作第一次能給 AI 大腦拍 X 光,他們讓模型顯式探測這張認知地圖,在每個時間步輸出自己認為物體都在什么位置。


      (動圖來源:受訪者)

      結(jié)果發(fā)現(xiàn),模型在被動模式下表現(xiàn)尚可,一旦切換到主動探索模式,性能應聲而落。以視覺世界為例,GPT-5.2 從 57.1% 掉到 46.0%,Gemini-3 Pro 從 60.5% 掉到 57.3%,而這就是他們所說的主動被動差距。


      (來源:https://theory-of-space.github.io/paper/Theory_of_S)

      差距從哪來?他們用一套精細的診斷工具來逐層拆解模型的認知過程。

      第一個問題是效率低。規(guī)則代理平均 9 步就能覆蓋整個環(huán)境,基礎(chǔ)模型往往需要 14 步以上,而且覆蓋率更低。GPT-5.2 有個毛病,一看到門就沖過去,經(jīng)常忘了把當前房間看完。Gemini-3 Pro 好一些,會先原地旋轉(zhuǎn)觀察再移動,但也沒有規(guī)則代理高效。

      第二個問題更致命。他們設(shè)計了一個錯誤信念測試,在模型完成初次探索后,悄悄移動或旋轉(zhuǎn)幾個物體。當模型再次經(jīng)過并直接觀察到新布局時,一個令人不安的現(xiàn)象出現(xiàn)了:GPT-5.2 在視覺世界中的朝向慣性高達 68.9%,即近七成的情況下仍然堅持報告物體的舊朝向。同一模型在文本世界中慣性只有 5.5%。


      (來源:https://theory-of-space.github.io/paper/Theory_of_S)

      其實這就是信念慣性,模型親眼看到變化,但內(nèi)部表征缺乏足夠的可塑性來完成舊信念到新信念的覆寫,也就是它無法更新自己的認知。這和 Sally-Anne 測試里三歲幼兒的失敗何其相似,只不過幼兒失敗是因為認知能力尚未發(fā)育,模型失敗是因為內(nèi)部機制存在缺陷。

      認知地圖會漂移,視覺世界更高難

      他們還發(fā)現(xiàn)一個叫信念漂移的現(xiàn)象。那就是模型在初次觀察物體時的感知誤差雖然存在,不過還沒嚴重到影響整體判斷。真正的問題是,這份初始保真度無法在后續(xù)步驟中維持。隨著探索推進、信息增多,那些早先正確的記憶開始悄然退化,被后續(xù)步驟的錯誤更新覆蓋,或者在拼接不同房間的信息時產(chǎn)生內(nèi)部矛盾。


      (動圖來源:受訪者)

      最終認知地圖的低準確率,在很大程度上來自拼不住。模型缺乏穩(wěn)定維護長程空間信息的機制,新的觀察不僅沒有鞏固已有認知,反而在不斷侵蝕它。這個特點可能人類也存在,比如筆者曾去參觀故宮,一個宮殿接一個地觀看,而這些宮殿又很相似,那么就很有可能看了下一個、忘記了上一個。


      (來源:https://theory-of-space.github.io/paper/Theory_of_S)

      但是,這些問題在視覺世界中會被放大。人類被試在視覺世界中的準確率高達 96.4%(使用簡單工具后達 99.0%),在文本世界中是 86.7%。模型卻正好相反,文本表現(xiàn)遠好于視覺。視覺信息對人類而言是天然、直覺的空間認知通道,而當前多模態(tài)模型尚未學會從像素中高效提取空間結(jié)構(gòu)。

      尤其是物體朝向識別,模型幾乎接近隨機猜測。這解釋了為什么它們在視角推理任務(如 Perspective Taking)上得分慘淡,大約只有 36% 的準確率。

      而這套評估框架的價值,在于它把空間智能從會不會答這道題的二元判定,變成了一個可以逐級診斷的連續(xù)過程。它告訴我們的不只是模型還差多遠,更是它具體在哪一級開始失靈。

      如果模型連“記住剛才看到的沙發(fā)在哪”都做不到,那指望它在一個真實環(huán)境里主動導航,比如在災區(qū)搜救中定位幸存者,還有很長的路要走。


      (來源:https://theory-of-space.github.io/paper/Theory_of_S)

      目前,相關(guān)論文已被機器學習頂級會議 ICLR 2026 接收。論文、代碼和數(shù)據(jù)集都已開源。該研究由西北大學、斯坦福大學、華盛頓大學與康奈爾大學聯(lián)合完成。研究團隊里集齊了多位《麻省理工科技評論》“35 歲以下科技創(chuàng)新 35 人”的入選者,李曼玲教授是 2025 年全球入選者,美國斯坦福大學的吳佳俊教授和美國華盛頓大學的 Ranjay Krishna 教授分別入選了 2024 與 2025 年度亞太區(qū)名單。

      參考資料:

      相關(guān)論文 https://theory-of-space.github.io/paper/Theory_of_Space.pdf

      https://limanling.github.io/

      https://profiles.stanford.edu/fei-fei-li

      運營/排版:何晨龍

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      特朗普“狼來了”鬧劇暴露美霸權(quán)嘴臉

      特朗普“狼來了”鬧劇暴露美霸權(quán)嘴臉

      烽火瞭望者
      2026-04-07 06:46:55
      東莞首個市級兒童公園爛尾?官方回應:不再按原計劃推進

      東莞首個市級兒童公園爛尾?官方回應:不再按原計劃推進

      南方都市報
      2026-04-07 11:28:09
      10億都救不了一命!京東副總裁蔡磊,生命進入倒計時

      10億都救不了一命!京東副總裁蔡磊,生命進入倒計時

      聽風喃
      2026-04-06 11:16:04
      以軍警告伊朗民眾不要乘坐火車或靠近鐵路

      以軍警告伊朗民眾不要乘坐火車或靠近鐵路

      界面新聞
      2026-04-07 13:36:28
      一箭18星!千帆星座第七批組網(wǎng)衛(wèi)星發(fā)射成功

      一箭18星!千帆星座第七批組網(wǎng)衛(wèi)星發(fā)射成功

      快科技
      2026-04-07 22:53:08
      “結(jié)婚20年還一起洗澡”!被母親怒斥有病,一山西女子發(fā)帖引熱議

      “結(jié)婚20年還一起洗澡”!被母親怒斥有病,一山西女子發(fā)帖引熱議

      火山詩話
      2026-04-07 06:44:38
      超越比亞迪閃充 吉利900V神盾金磚電池實測8分42秒充至97%

      超越比亞迪閃充 吉利900V神盾金磚電池實測8分42秒充至97%

      快科技
      2026-04-07 16:19:06
      賽力斯,也是牛馬

      賽力斯,也是牛馬

      壹度Pro
      2026-04-07 17:05:23
      央行:中國3月末黃金儲備報7,438萬盎司,2月末為7422萬盎司,為連續(xù)第17個月增持黃金

      央行:中國3月末黃金儲備報7,438萬盎司,2月末為7422萬盎司,為連續(xù)第17個月增持黃金

      每日經(jīng)濟新聞
      2026-04-07 16:14:21
      心梗與散步脫不開關(guān)系?醫(yī)生建議:55歲以后,散步時多注意這3點

      心梗與散步脫不開關(guān)系?醫(yī)生建議:55歲以后,散步時多注意這3點

      白話電影院
      2026-04-06 19:42:47
      任何一艘美航母上,都要帶足大量女兵?她們在航母上有什么作用?

      任何一艘美航母上,都要帶足大量女兵?她們在航母上有什么作用?

      探源歷史
      2026-04-06 04:10:07
      鄭麗文抵滬,一顆扣子讓14億人看哭了:歡迎回家!

      鄭麗文抵滬,一顆扣子讓14億人看哭了:歡迎回家!

      筆墨V
      2026-04-07 17:19:47
      俄羅斯人很困惑,這么貴的東西,為什么中國人卻將它當水喝?

      俄羅斯人很困惑,這么貴的東西,為什么中國人卻將它當水喝?

      南宗歷史
      2026-04-07 16:59:32
      伊朗致信聯(lián)合國

      伊朗致信聯(lián)合國

      極目新聞
      2026-04-07 14:12:46
      美拯救大兵“Bravo”更多驚險細節(jié)曝光:靠尋呼機式定位器求救,回答私密問題驗身

      美拯救大兵“Bravo”更多驚險細節(jié)曝光:靠尋呼機式定位器求救,回答私密問題驗身

      紅星新聞
      2026-04-07 13:13:17
      美俄曾聯(lián)手阻撓,如今圖160重啟生產(chǎn)線,俄對華求購態(tài)度仍然未變

      美俄曾聯(lián)手阻撓,如今圖160重啟生產(chǎn)線,俄對華求購態(tài)度仍然未變

      小莜讀史
      2026-04-04 11:03:12
      鄭麗文去了慈湖謁陵,她通告行程祈求圓滿,清明后還要拜謁中山陵

      鄭麗文去了慈湖謁陵,她通告行程祈求圓滿,清明后還要拜謁中山陵

      孤單是寂寞的毒
      2026-04-03 06:36:00
      28億元救一個上校,美國為何不惜一切代價非救不可?

      28億元救一個上校,美國為何不惜一切代價非救不可?

      碼頭青年
      2026-04-06 07:37:05
      突發(fā)!伊朗“石油命脈”發(fā)生爆炸,橋梁和輸電線路也被炸!伊朗:克制已結(jié)束;卡塔爾:中東局勢接近失控

      突發(fā)!伊朗“石油命脈”發(fā)生爆炸,橋梁和輸電線路也被炸!伊朗:克制已結(jié)束;卡塔爾:中東局勢接近失控

      每日經(jīng)濟新聞
      2026-04-07 21:54:07
      安徽失聯(lián)女童已遇害!兇手身份正臉被扒,知情人曝猛料,細思極恐

      安徽失聯(lián)女童已遇害!兇手身份正臉被扒,知情人曝猛料,細思極恐

      奇思妙想草葉君
      2026-04-07 21:26:13
      2026-04-07 23:39:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16549文章數(shù) 514854關(guān)注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

      頭條要聞

      特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產(chǎn)

      財經(jīng)要聞

      10萬億財政轉(zhuǎn)移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態(tài)體驗

      態(tài)度原創(chuàng)

      本地
      親子
      藝術(shù)
      公開課
      軍事航空

      本地新聞

      跟著歌聲游安徽,聽古村回響

      親子要聞

      春天娃長個黃金期,喝對黑豆水,個子悄悄往上竄

      藝術(shù)要聞

      美麗風光看不盡

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美軍營救飛行員出動155架飛機

      無障礙瀏覽 進入關(guān)懷版