<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      景不動人動,OST-Bench揭示多模態大模型在線時空理解短板

      0
      分享至



      多模態大語言模型(MLLMs)已在視覺與語言模態融合的感知與推理任務中展現出強大能力。而上海人工智能實驗室、上海交通大學、香港大學、香港中文大學的研究者們提出的的 OST-Bench, 則是從智能體探索場景的動態在線視角出發,為大模型的能力提出了新的挑戰。

      對比離線 / 靜態的空間智能基準,OST-Bench 更精準地反映了具身感知在真實世界中的核心挑戰。代碼和數據均已開源。



      • 論文鏈接:https://arxiv.org/abs/2507.07984
      • 項目主頁:https://rbler1234.github.io/OSTBench.github.io/
      • Hugging Face 數據集:https://huggingface.co/datasets/rbler/OST-Bench
      • GitHub 代碼庫:https://github.com/InternRobotics/OST-Bench

      離線鳥瞰全景 VS 在線移步換景

      在現實世界中,我們的視野范圍是有限的,我們的眼睛在某一時刻只能聚焦于一個局部的場景。隨著不斷的探索,移步換景,我們對于全局場景逐步地形成一個更為清晰的認識;與此同時,基于當前以及歷史的觀測,我們也能感知自身的位置變化以及與之前見過的物體的位置關系 (「我離那把椅子越來越遠」「棕色的枕頭現在在我的右后方」)。

      和現實中的人類一樣,在真實世界部署的智能體通常無法一次性獲取全局環境,而是依賴連續輸入的局部觀測,需要在不斷「移步換景」中完成在線感知、記憶維護與時空推理。這對導航、移動操控等具身任務尤為關鍵:比如在導航中,模型需要在當前時刻判斷「剛才見到的目標現在在我左后方」,并據此決定行動。

      隨著多模態大模型在各類基準上不斷刷新紀錄,人們開始關注它們在真實世界設定下的表現。在時間維度,希望模型具備在線理解能力;在空間維度,希望模型能夠基于 2d 觀測構建 3d 空間布局認知。

      然而,以往的空間智能評測多為離線、固定輸入長度,而涌現的一些在線視頻評測基準往往只考察局部或語義層面的空間感知。OST-Bench 則更貼近真實世界場景,相比以往基準具有兩大核心特點:

      1. 在線設定:模型必須在不斷增長的觀測中進行實時感知、記憶與推理;
      2. 跨時空理解:需要同時結合當前畫面與歷史信息,完成面向時間跨度的復雜空間推理

      視頻演示

      正如下圖所示,與傳統離線空間基準相比,在線設定對模型提出了更高、更接近真實世界的要求。



      基準介紹:「移步換景」為大模型帶來了哪些新難題?

      傳統的靜態場景理解主要關注物體屬性及其靜態關系。而探索的智能體中不斷改變自身位置和視角,帶來持續更新的信息類型與更豐富的問題形態。研究團隊據此將動態場景理解劃分為三大信息類別:智能體空間狀態、智能體可見信息、智能體 - 物體空間關系。基于這三類信息,研究團隊進一步設計了15 個子任務,覆蓋判斷(JUD)、估算(EST)、計數(CNT)、時間定位(TEMP)四類題型。基于規則生成 + 人工篩選,生成了基準的 10k 條測試集數據 (1.4k 個場景) 以及用于微調的 50k 條訓練集數據 (7k 個場景)。



      實驗結果:大模型的在線場景時空理解答卷







      1. 主流大模型陷入困境:當前主流多模態大模型與人類存在顯著性能差距,暴露出跨時空信息推理的能力短板 (上面表 1 / 表 2)。模型的準確率隨著探索步數的持續下降說明現有范式難以適應長時序的在線設定。
      2. 空間增強模型能做好嗎?結果可能沒那么樂觀。「空間建模」機制的模型(如 Spatial-MLLM、VLM-3R 和 LLaVA-3D),與其基座模型相比沒有預期的顯著提升,反而在部分任務上明顯退步,并伴隨指令遵循能力的下降。總體來看,空間增強模型雖然在特定數據分布中表現良好,但在更開放、更復雜的在線場景中仍難以穩健發揮。這也進一步體現體現了 OST-Bench 在揭示模型真實能力邊界方面的價值。



      深入分析:大模型的表現診斷書

      1.共性問題聚焦——大模型遇到難題更喜歡走捷徑?

      通過錯誤統計我們發現模型的犯錯集中在推理步驟,而在對錯誤案例的深入分析中,研究團隊發現一個十分典型的共性現象:在面對復雜時空推理問題時,對比主動回溯歷史信息或檢索關鍵線索,模型更傾向于「就地猜測」—— 僅依據當前片段中的有限信息做出草率推斷,而非進行真正的時空整合推理。

      研究團隊將這種現象稱為「時空推理捷徑(Spatio-temporal Reasoning Shortcut)」:模型看似給出了合理答案,但推理過程并無充分依據,往往只是 「表面合理」。





      綠 / 紅色代表模型推理正確 / 錯誤的地方

      2.跨視角推理測評子集——對于 MLLM 的專項補考

      為了更精確地定位模型的能力邊界,研究團隊設計了一個針對性子集。和之前的測評不同,這次 (1) 按難度分級:研究團隊按是否需要多步的復雜推理 (如下圖) 以及是否提前提出關鍵幀,將問題劃分為四個難度等級。對比單步關聯,多步空間關聯任務要求更強的推理能力;對比只有關鍵幀輸入,全視頻輸入則需在冗長觀察中識別用于解答的關鍵幀。

      (2) 補考的結果表明:復雜線索條件下的空間推理能力不足與長期記憶檢索機制薄弱是當前模型在在線時空理解任務中準確率受限的兩大關鍵因素。



      3.微調實驗——提前「預習」在 OST-Bench 的幫助有多大?

      為了評估模型能力的上限,研究團隊基于來自 7000 個場景的 5 萬條問答數據對多種模型進行了微調實驗。所有模型的分數均提升了超過 10%,證明「提前預習突擊」確實有效。然而,團隊也發現真正涉及復雜時空推理的任務仍難以突破 50% 的準確率,說明單純微調并不能觸及問題本質;此外,模型在部分題型上呈現出明顯的「背答案」傾向而非真正理解。微調后的模型還容易「變得不聽話」,無法穩定遵守格式對自己的答案進行解釋。

      現象表明:微調可以帶來提升,但這種提升更像是「題海戰術式的熟練」,而非 「機制上的理解進步」。在這門課上,沒有結構和范式的突破,僅靠刷數據是無法真正拿高分的。要攻克 OST-Bench,必須依賴更強的模型設計或訓練策略。

      總結

      OST-Bench 提出了一個在線的時空場景理解基準,通過對于多個多模態大模型的評估,揭示了當前模型在面對「在線時空理解」任務時的深層短板,也為未來模型的發展指明了方向:突破復雜空間推理能力與長期記憶機制,將是下一代多模態模型邁向真實智能世界的關鍵一步。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      當不成總統了?特朗普躺進醫院?美本土起暴亂,共和黨選替代者?

      當不成總統了?特朗普躺進醫院?美本土起暴亂,共和黨選替代者?

      探史
      2026-04-07 22:07:34
      贏福建9分!遼寧隊還有3大收獲,烏戈樂開了花

      贏福建9分!遼寧隊還有3大收獲,烏戈樂開了花

      體育哲人
      2026-04-07 23:22:02
      周總理好心建議賀龍搬出中南海,賀龍:我沒想到把我看成這種人

      周總理好心建議賀龍搬出中南海,賀龍:我沒想到把我看成這種人

      北海史記
      2026-04-07 17:16:32
      “不惜一切代價”與“不惜一切代價”

      “不惜一切代價”與“不惜一切代價”

      名人茍或
      2026-04-07 06:09:28
      美軍宣稱摸清中國導彈庫存!俄專家:中國解放軍可以半小時定勝負

      美軍宣稱摸清中國導彈庫存!俄專家:中國解放軍可以半小時定勝負

      今夜繁星墜落
      2026-04-07 23:13:34
      伺候36年,陳麗華470億遺產全歸子女,“唐僧”遲重瑞白忙一場?

      伺候36年,陳麗華470億遺產全歸子女,“唐僧”遲重瑞白忙一場?

      別人都叫我阿腈
      2026-04-07 17:55:03
      廢除漢字幾十年后,韓語終于被確診“中國拼音”,韓國人又破防了

      廢除漢字幾十年后,韓語終于被確診“中國拼音”,韓國人又破防了

      新一說史
      2026-04-07 20:53:00
      伊朗官員號召青年手拉手圍住電站:人鏈護核設施

      伊朗官員號召青年手拉手圍住電站:人鏈護核設施

      桂系007
      2026-04-07 14:53:23
      《廣東省支持個體工商戶發展若干措施》印發

      《廣東省支持個體工商戶發展若干措施》印發

      界面新聞
      2026-04-07 10:15:02
      納斯達克綜合指數跌幅擴大,現跌1.0%,最新報21763.25點

      納斯達克綜合指數跌幅擴大,現跌1.0%,最新報21763.25點

      每日經濟新聞
      2026-04-07 22:05:32
      小米挖走特斯拉中歐高管,瞄準歐洲汽車市場

      小米挖走特斯拉中歐高管,瞄準歐洲汽車市場

      IT之家
      2026-04-07 17:07:22
      孫中山遺體,為何從開始的永久保存供人瞻仰,轉變為混凝土封固

      孫中山遺體,為何從開始的永久保存供人瞻仰,轉變為混凝土封固

      云霄紀史觀
      2026-03-31 16:47:50
      某央企地產,大領導被抓了!

      某央企地產,大領導被抓了!

      地產八卦
      2026-04-07 07:54:52
      美國完全陷入中國的圈套!紐約時報:特朗普正在領導超級大國自殺

      美國完全陷入中國的圈套!紐約時報:特朗普正在領導超級大國自殺

      混沌錄
      2026-04-07 22:00:06
      張雪峰去世半月,妻子首次發聲:回應網上兩大傳聞,披露女兒近況

      張雪峰去世半月,妻子首次發聲:回應網上兩大傳聞,披露女兒近況

      溫柔看世界
      2026-04-07 21:53:24
      威少37歲了,他能像詹姆斯那樣,拿下3萬分+1萬板+1萬助嗎?

      威少37歲了,他能像詹姆斯那樣,拿下3萬分+1萬板+1萬助嗎?

      大西體育
      2026-04-07 21:37:20
      海康威視辟謠“監控系統出現漏洞,總部300多人被帶走”:公司不存在上述情況,目前在伊朗暫無相關業務

      海康威視辟謠“監控系統出現漏洞,總部300多人被帶走”:公司不存在上述情況,目前在伊朗暫無相關業務

      瀟湘晨報
      2026-04-07 13:40:22
      張雪峰接班人武亮首場直播:解答所有疑問,未來把公司交給張姩菡

      張雪峰接班人武亮首場直播:解答所有疑問,未來把公司交給張姩菡

      露珠聊影視
      2026-04-07 21:32:37
      西方軍事專家:只有吉爾吉斯斯坦知道,中國早就是最強超級大國了

      西方軍事專家:只有吉爾吉斯斯坦知道,中國早就是最強超級大國了

      混沌錄
      2026-04-05 16:33:12
      北京市順義區人大常委會主任暴劍?...

      北京市順義區人大常委會主任暴劍?...

      新浪財經
      2026-04-07 20:55:24
      2026-04-08 00:23:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12701文章數 142616關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

      頭條要聞

      特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產

      財經要聞

      10萬億財政轉移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態體驗

      態度原創

      數碼
      家居
      本地
      公開課
      軍事航空

      數碼要聞

      OPPO ColorOS共創者星球2026年第1期高票建議采納情況公布

      家居要聞

      雅致愜意 感知生活之美

      本地新聞

      跟著歌聲游安徽,聽古村回響

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美軍營救飛行員出動155架飛機

      無障礙瀏覽 進入關懷版