<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      景不動人動,OST-Bench揭示多模態大模型在線時空理解短板

      0
      分享至



      多模態大語言模型(MLLMs)已在視覺與語言模態融合的感知與推理任務中展現出強大能力。而上海人工智能實驗室、上海交通大學、香港大學、香港中文大學的研究者們提出的的 OST-Bench, 則是從智能體探索場景的動態在線視角出發,為大模型的能力提出了新的挑戰。

      對比離線 / 靜態的空間智能基準,OST-Bench 更精準地反映了具身感知在真實世界中的核心挑戰。代碼和數據均已開源。



      • 論文鏈接:https://arxiv.org/abs/2507.07984
      • 項目主頁:https://rbler1234.github.io/OSTBench.github.io/
      • Hugging Face 數據集:https://huggingface.co/datasets/rbler/OST-Bench
      • GitHub 代碼庫:https://github.com/InternRobotics/OST-Bench

      離線鳥瞰全景 VS 在線移步換景

      在現實世界中,我們的視野范圍是有限的,我們的眼睛在某一時刻只能聚焦于一個局部的場景。隨著不斷的探索,移步換景,我們對于全局場景逐步地形成一個更為清晰的認識;與此同時,基于當前以及歷史的觀測,我們也能感知自身的位置變化以及與之前見過的物體的位置關系 (「我離那把椅子越來越遠」「棕色的枕頭現在在我的右后方」)。

      和現實中的人類一樣,在真實世界部署的智能體通常無法一次性獲取全局環境,而是依賴連續輸入的局部觀測,需要在不斷「移步換景」中完成在線感知、記憶維護與時空推理。這對導航、移動操控等具身任務尤為關鍵:比如在導航中,模型需要在當前時刻判斷「剛才見到的目標現在在我左后方」,并據此決定行動。

      隨著多模態大模型在各類基準上不斷刷新紀錄,人們開始關注它們在真實世界設定下的表現。在時間維度,希望模型具備在線理解能力;在空間維度,希望模型能夠基于 2d 觀測構建 3d 空間布局認知。

      然而,以往的空間智能評測多為離線、固定輸入長度,而涌現的一些在線視頻評測基準往往只考察局部或語義層面的空間感知。OST-Bench 則更貼近真實世界場景,相比以往基準具有兩大核心特點:

      1. 在線設定:模型必須在不斷增長的觀測中進行實時感知、記憶與推理;
      2. 跨時空理解:需要同時結合當前畫面與歷史信息,完成面向時間跨度的復雜空間推理

      視頻演示

      正如下圖所示,與傳統離線空間基準相比,在線設定對模型提出了更高、更接近真實世界的要求。



      基準介紹:「移步換景」為大模型帶來了哪些新難題?

      傳統的靜態場景理解主要關注物體屬性及其靜態關系。而探索的智能體中不斷改變自身位置和視角,帶來持續更新的信息類型與更豐富的問題形態。研究團隊據此將動態場景理解劃分為三大信息類別:智能體空間狀態、智能體可見信息、智能體 - 物體空間關系。基于這三類信息,研究團隊進一步設計了15 個子任務,覆蓋判斷(JUD)、估算(EST)、計數(CNT)、時間定位(TEMP)四類題型。基于規則生成 + 人工篩選,生成了基準的 10k 條測試集數據 (1.4k 個場景) 以及用于微調的 50k 條訓練集數據 (7k 個場景)。



      實驗結果:大模型的在線場景時空理解答卷







      1. 主流大模型陷入困境:當前主流多模態大模型與人類存在顯著性能差距,暴露出跨時空信息推理的能力短板 (上面表 1 / 表 2)。模型的準確率隨著探索步數的持續下降說明現有范式難以適應長時序的在線設定。
      2. 空間增強模型能做好嗎?結果可能沒那么樂觀。「空間建模」機制的模型(如 Spatial-MLLM、VLM-3R 和 LLaVA-3D),與其基座模型相比沒有預期的顯著提升,反而在部分任務上明顯退步,并伴隨指令遵循能力的下降。總體來看,空間增強模型雖然在特定數據分布中表現良好,但在更開放、更復雜的在線場景中仍難以穩健發揮。這也進一步體現體現了 OST-Bench 在揭示模型真實能力邊界方面的價值。



      深入分析:大模型的表現診斷書

      1.共性問題聚焦——大模型遇到難題更喜歡走捷徑?

      通過錯誤統計我們發現模型的犯錯集中在推理步驟,而在對錯誤案例的深入分析中,研究團隊發現一個十分典型的共性現象:在面對復雜時空推理問題時,對比主動回溯歷史信息或檢索關鍵線索,模型更傾向于「就地猜測」—— 僅依據當前片段中的有限信息做出草率推斷,而非進行真正的時空整合推理。

      研究團隊將這種現象稱為「時空推理捷徑(Spatio-temporal Reasoning Shortcut)」:模型看似給出了合理答案,但推理過程并無充分依據,往往只是 「表面合理」。





      綠 / 紅色代表模型推理正確 / 錯誤的地方

      2.跨視角推理測評子集——對于 MLLM 的專項補考

      為了更精確地定位模型的能力邊界,研究團隊設計了一個針對性子集。和之前的測評不同,這次 (1) 按難度分級:研究團隊按是否需要多步的復雜推理 (如下圖) 以及是否提前提出關鍵幀,將問題劃分為四個難度等級。對比單步關聯,多步空間關聯任務要求更強的推理能力;對比只有關鍵幀輸入,全視頻輸入則需在冗長觀察中識別用于解答的關鍵幀。

      (2) 補考的結果表明:復雜線索條件下的空間推理能力不足與長期記憶檢索機制薄弱是當前模型在在線時空理解任務中準確率受限的兩大關鍵因素。



      3.微調實驗——提前「預習」在 OST-Bench 的幫助有多大?

      為了評估模型能力的上限,研究團隊基于來自 7000 個場景的 5 萬條問答數據對多種模型進行了微調實驗。所有模型的分數均提升了超過 10%,證明「提前預習突擊」確實有效。然而,團隊也發現真正涉及復雜時空推理的任務仍難以突破 50% 的準確率,說明單純微調并不能觸及問題本質;此外,模型在部分題型上呈現出明顯的「背答案」傾向而非真正理解。微調后的模型還容易「變得不聽話」,無法穩定遵守格式對自己的答案進行解釋。

      現象表明:微調可以帶來提升,但這種提升更像是「題海戰術式的熟練」,而非 「機制上的理解進步」。在這門課上,沒有結構和范式的突破,僅靠刷數據是無法真正拿高分的。要攻克 OST-Bench,必須依賴更強的模型設計或訓練策略。

      總結

      OST-Bench 提出了一個在線的時空場景理解基準,通過對于多個多模態大模型的評估,揭示了當前模型在面對「在線時空理解」任務時的深層短板,也為未來模型的發展指明了方向:突破復雜空間推理能力與長期記憶機制,將是下一代多模態模型邁向真實智能世界的關鍵一步。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      央視年代劇《老舅》撕開殘酷人生:你吃的飲食,暴露了你的階層

      央視年代劇《老舅》撕開殘酷人生:你吃的飲食,暴露了你的階層

      八卦南風
      2025-12-16 17:19:25
      王霏霏鐵籠寫真炸裂!紋身裙配黑絲,這野性美太撩人?

      王霏霏鐵籠寫真炸裂!紋身裙配黑絲,這野性美太撩人?

      娛樂領航家
      2025-12-17 20:00:04
      澳門這晚,陳偉霆的斗篷,吳尊的緊身褲,全敗給兩個70歲“老頭”

      澳門這晚,陳偉霆的斗篷,吳尊的緊身褲,全敗給兩個70歲“老頭”

      大鐵貓娛樂
      2025-12-15 14:47:15
      工信部、央視點名!新國標車讓人“無車可騎”?商家:價格貴700元

      工信部、央視點名!新國標車讓人“無車可騎”?商家:價格貴700元

      品牌觀察官
      2025-12-15 20:11:43
      人大書記嚴選羽絨服已全部售罄,有二手平臺溢價700元轉售,店方稱系波司登同廠生產,只能等倉庫補貨

      人大書記嚴選羽絨服已全部售罄,有二手平臺溢價700元轉售,店方稱系波司登同廠生產,只能等倉庫補貨

      極目新聞
      2025-12-17 17:41:23
      洪馬奈到底經歷了什么,會絕望到一夜白頭?一般貪官犯人才會發生

      洪馬奈到底經歷了什么,會絕望到一夜白頭?一般貪官犯人才會發生

      我心縱橫天地間
      2025-12-14 23:10:38
      知名演員官宣:已退出美國國籍,正式成為中國公民!

      知名演員官宣:已退出美國國籍,正式成為中國公民!

      草莓解說體育
      2025-12-17 10:08:45
      向大陸求救!
國民黨亂成一鍋粥了!

鄭麗文遭受內外夾擊!

      向大陸求救! 國民黨亂成一鍋粥了! 鄭麗文遭受內外夾擊!

      百態人間
      2025-12-16 16:20:45
      為什么抑郁率最低的是廣西?評論區笑翻天了

      為什么抑郁率最低的是廣西?評論區笑翻天了

      另子維愛讀史
      2025-12-16 21:25:55
      看西班牙王后穿大衣,我悟了:裙過膝,衣不花哨不緊身,高級顯貴

      看西班牙王后穿大衣,我悟了:裙過膝,衣不花哨不緊身,高級顯貴

      八分搭配
      2025-11-30 00:06:13
      賴昌星發妻曾明娜現狀:逃亡10年后回國,守著3000平老宅安靜養老

      賴昌星發妻曾明娜現狀:逃亡10年后回國,守著3000平老宅安靜養老

      古書記史
      2025-12-12 11:21:38
      63歲劉斌北京聚會,坐主位煙不離手,63歲叢珊露面,優雅顯年輕

      63歲劉斌北京聚會,坐主位煙不離手,63歲叢珊露面,優雅顯年輕

      丁丁鯉史紀
      2025-12-17 15:30:22
      暴雷!2.7億年薪打工皇帝,恒大“二號人物”夏海鈞被最后通牒!

      暴雷!2.7億年薪打工皇帝,恒大“二號人物”夏海鈞被最后通牒!

      歷史偉人錄
      2025-12-16 11:21:40
      少將軍銜處于什么水平?想要成為一名少將,晉升難度究竟有多大?

      少將軍銜處于什么水平?想要成為一名少將,晉升難度究竟有多大?

      源溯歷史
      2025-12-16 21:19:53
      鳩山由紀夫戳破真相,當年免掉千億賠款,實則給日本立了個死規定

      鳩山由紀夫戳破真相,當年免掉千億賠款,實則給日本立了個死規定

      曹焋解說
      2025-12-07 15:55:03
      大結局!黎智英被判罪后,美國通知北京放人,我大使會見外國高官

      大結局!黎智英被判罪后,美國通知北京放人,我大使會見外國高官

      現代小青青慕慕
      2025-12-17 09:36:25
      一鍋端!中國男足3大名將集體轉會,加盟中超新貴,組成豪華陣容

      一鍋端!中國男足3大名將集體轉會,加盟中超新貴,組成豪華陣容

      巧手曉廚娘
      2025-12-17 19:26:11
      又一大三甲原書記被查!曾任衛健委副主任

      又一大三甲原書記被查!曾任衛健委副主任

      醫療器械經銷商聯盟
      2025-12-17 13:27:41
      崩潰!10中1、正負值-32!楊瀚森真帶不動...

      崩潰!10中1、正負值-32!楊瀚森真帶不動...

      體育新角度
      2025-12-17 19:08:41
      女性能長壽的,基本在50歲后,就不再做這3件事了

      女性能長壽的,基本在50歲后,就不再做這3件事了

      十點讀書
      2025-12-16 19:22:05
      2025-12-17 20:43:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11943文章數 142512關注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      美方威脅歐盟:點名了 別逼我動手

      頭條要聞

      美方威脅歐盟:點名了 別逼我動手

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      狗仔曝熱播劇姐弟戀真談了???

      財經要聞

      重磅信號!收入分配制度或迎重大突破

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      游戲
      健康
      教育
      藝術
      時尚

      獵魂世界:少女比比東技能信息匯總!第七大中毒流派正式降臨!

      這些新療法,讓化療不再那么痛苦

      教育要聞

      【媒體聚焦】新華社 | 廣東“以賽促教”培養“大先生”

      藝術要聞

      毛主席書寫林則徐詩詞,字跡超凡,引發關注。

      44歲的宋慧喬面相變了!她的變美思路普通人也可以借鑒

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 人妻互换一二三区激情视频| 成人午夜免费无码视频在线观看| 少妇被躁爽到高潮| 久久se精品一区精品二区 | www.97| 色翁荡媳又硬又粗又长视频| 国产成人夜色高潮福利影视| 中文字幕无码精品亚洲35| 县级市| 亚洲中文字幕日韩| 久久男人av资源网站无码软件| 国产男女猛烈无遮挡免费视频网站 | 一个人在线观看免费中文www| 无卡无码| av在线无码| 国产麻豆天美果冻无码视频| 无码少妇一区二区三区免费| 99无码人妻一区二区三区色| 国产AV大全| 亚洲中文无码永久免费| 日本护士╳╳╳hd少妇| 疯狂做受xxxx高潮欧美日本 | 黑人大战中国av女叫惨了| 亚洲天堂中文字幕| 中文字幕A片免费观看| 成全我在线观看免费第二季| 好男人社区www在线观看 | 蜜桃?一区二区视频在线观看| 浴室人妻的情欲hd三级国产| 在线观看免费人成视频色9| 武安市| 第一色网| 久久av高潮av无码av喷吹 | 亚洲成人A?V在线| 日本在线观看| 91蜜桃婷婷狠狠久久综合9色| 亚洲国产一区二区三区久| 国产精品爽爽v在线观看无码| www91色色con在线观看视频| 91一区二区| 四川网红刘婷和爸爸视频最新|