<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      景不動(dòng)人動(dòng),OST-Bench揭示多模態(tài)大模型在線時(shí)空理解短板

      0
      分享至



      多模態(tài)大語(yǔ)言模型(MLLMs)已在視覺與語(yǔ)言模態(tài)融合的感知與推理任務(wù)中展現(xiàn)出強(qiáng)大能力。而上海人工智能實(shí)驗(yàn)室、上海交通大學(xué)、香港大學(xué)、香港中文大學(xué)的研究者們提出的的 OST-Bench, 則是從智能體探索場(chǎng)景的動(dòng)態(tài)在線視角出發(fā),為大模型的能力提出了新的挑戰(zhàn)。

      對(duì)比離線 / 靜態(tài)的空間智能基準(zhǔn),OST-Bench 更精準(zhǔn)地反映了具身感知在真實(shí)世界中的核心挑戰(zhàn)。代碼和數(shù)據(jù)均已開源。



      • 論文鏈接:https://arxiv.org/abs/2507.07984
      • 項(xiàng)目主頁(yè):https://rbler1234.github.io/OSTBench.github.io/
      • Hugging Face 數(shù)據(jù)集:https://huggingface.co/datasets/rbler/OST-Bench
      • GitHub 代碼庫(kù):https://github.com/InternRobotics/OST-Bench

      離線鳥瞰全景 VS 在線移步換景

      在現(xiàn)實(shí)世界中,我們的視野范圍是有限的,我們的眼睛在某一時(shí)刻只能聚焦于一個(gè)局部的場(chǎng)景。隨著不斷的探索,移步換景,我們對(duì)于全局場(chǎng)景逐步地形成一個(gè)更為清晰的認(rèn)識(shí);與此同時(shí),基于當(dāng)前以及歷史的觀測(cè),我們也能感知自身的位置變化以及與之前見過的物體的位置關(guān)系 (「我離那把椅子越來(lái)越遠(yuǎn)」「棕色的枕頭現(xiàn)在在我的右后方」)。

      和現(xiàn)實(shí)中的人類一樣,在真實(shí)世界部署的智能體通常無(wú)法一次性獲取全局環(huán)境,而是依賴連續(xù)輸入的局部觀測(cè),需要在不斷「移步換景」中完成在線感知、記憶維護(hù)與時(shí)空推理。這對(duì)導(dǎo)航、移動(dòng)操控等具身任務(wù)尤為關(guān)鍵:比如在導(dǎo)航中,模型需要在當(dāng)前時(shí)刻判斷「剛才見到的目標(biāo)現(xiàn)在在我左后方」,并據(jù)此決定行動(dòng)。

      隨著多模態(tài)大模型在各類基準(zhǔn)上不斷刷新紀(jì)錄,人們開始關(guān)注它們?cè)?strong>真實(shí)世界設(shè)定下的表現(xiàn)。在時(shí)間維度,希望模型具備在線理解能力;在空間維度,希望模型能夠基于 2d 觀測(cè)構(gòu)建 3d 空間布局認(rèn)知。

      然而,以往的空間智能評(píng)測(cè)多為離線、固定輸入長(zhǎng)度,而涌現(xiàn)的一些在線視頻評(píng)測(cè)基準(zhǔn)往往只考察局部或語(yǔ)義層面的空間感知。OST-Bench 則更貼近真實(shí)世界場(chǎng)景,相比以往基準(zhǔn)具有兩大核心特點(diǎn):

      1. 在線設(shè)定:模型必須在不斷增長(zhǎng)的觀測(cè)中進(jìn)行實(shí)時(shí)感知、記憶與推理;
      2. 跨時(shí)空理解:需要同時(shí)結(jié)合當(dāng)前畫面與歷史信息,完成面向時(shí)間跨度的復(fù)雜空間推理

      視頻演示

      正如下圖所示,與傳統(tǒng)離線空間基準(zhǔn)相比,在線設(shè)定對(duì)模型提出了更高、更接近真實(shí)世界的要求。



      基準(zhǔn)介紹:「移步換景」為大模型帶來(lái)了哪些新難題?

      傳統(tǒng)的靜態(tài)場(chǎng)景理解主要關(guān)注物體屬性及其靜態(tài)關(guān)系。而探索的智能體中不斷改變自身位置和視角,帶來(lái)持續(xù)更新的信息類型與更豐富的問題形態(tài)。研究團(tuán)隊(duì)據(jù)此將動(dòng)態(tài)場(chǎng)景理解劃分為三大信息類別:智能體空間狀態(tài)、智能體可見信息、智能體 - 物體空間關(guān)系。基于這三類信息,研究團(tuán)隊(duì)進(jìn)一步設(shè)計(jì)了15 個(gè)子任務(wù),覆蓋判斷(JUD)、估算(EST)、計(jì)數(shù)(CNT)、時(shí)間定位(TEMP)四類題型。基于規(guī)則生成 + 人工篩選,生成了基準(zhǔn)的 10k 條測(cè)試集數(shù)據(jù) (1.4k 個(gè)場(chǎng)景) 以及用于微調(diào)的 50k 條訓(xùn)練集數(shù)據(jù) (7k 個(gè)場(chǎng)景)。



      實(shí)驗(yàn)結(jié)果:大模型的在線場(chǎng)景時(shí)空理解答卷







      1. 主流大模型陷入困境:當(dāng)前主流多模態(tài)大模型與人類存在顯著性能差距,暴露出跨時(shí)空信息推理的能力短板 (上面表 1 / 表 2)。模型的準(zhǔn)確率隨著探索步數(shù)的持續(xù)下降說(shuō)明現(xiàn)有范式難以適應(yīng)長(zhǎng)時(shí)序的在線設(shè)定。
      2. 空間增強(qiáng)模型能做好嗎?結(jié)果可能沒那么樂觀。「空間建模」機(jī)制的模型(如 Spatial-MLLM、VLM-3R 和 LLaVA-3D),與其基座模型相比沒有預(yù)期的顯著提升,反而在部分任務(wù)上明顯退步,并伴隨指令遵循能力的下降。總體來(lái)看,空間增強(qiáng)模型雖然在特定數(shù)據(jù)分布中表現(xiàn)良好,但在更開放、更復(fù)雜的在線場(chǎng)景中仍難以穩(wěn)健發(fā)揮。這也進(jìn)一步體現(xiàn)體現(xiàn)了 OST-Bench 在揭示模型真實(shí)能力邊界方面的價(jià)值。



      深入分析:大模型的表現(xiàn)診斷書

      1.共性問題聚焦——大模型遇到難題更喜歡走捷徑?

      通過錯(cuò)誤統(tǒng)計(jì)我們發(fā)現(xiàn)模型的犯錯(cuò)集中在推理步驟,而在對(duì)錯(cuò)誤案例的深入分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)一個(gè)十分典型的共性現(xiàn)象:在面對(duì)復(fù)雜時(shí)空推理問題時(shí),對(duì)比主動(dòng)回溯歷史信息或檢索關(guān)鍵線索,模型更傾向于「就地猜測(cè)」—— 僅依據(jù)當(dāng)前片段中的有限信息做出草率推斷,而非進(jìn)行真正的時(shí)空整合推理。

      研究團(tuán)隊(duì)將這種現(xiàn)象稱為「時(shí)空推理捷徑(Spatio-temporal Reasoning Shortcut)」:模型看似給出了合理答案,但推理過程并無(wú)充分依據(jù),往往只是 「表面合理」。





      綠 / 紅色代表模型推理正確 / 錯(cuò)誤的地方

      2.跨視角推理測(cè)評(píng)子集——對(duì)于 MLLM 的專項(xiàng)補(bǔ)考

      為了更精確地定位模型的能力邊界,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)針對(duì)性子集。和之前的測(cè)評(píng)不同,這次 (1) 按難度分級(jí):研究團(tuán)隊(duì)按是否需要多步的復(fù)雜推理 (如下圖) 以及是否提前提出關(guān)鍵幀,將問題劃分為四個(gè)難度等級(jí)。對(duì)比單步關(guān)聯(lián),多步空間關(guān)聯(lián)任務(wù)要求更強(qiáng)的推理能力;對(duì)比只有關(guān)鍵幀輸入,全視頻輸入則需在冗長(zhǎng)觀察中識(shí)別用于解答的關(guān)鍵幀。

      (2) 補(bǔ)考的結(jié)果表明:復(fù)雜線索條件下的空間推理能力不足與長(zhǎng)期記憶檢索機(jī)制薄弱是當(dāng)前模型在在線時(shí)空理解任務(wù)中準(zhǔn)確率受限的兩大關(guān)鍵因素。



      3.微調(diào)實(shí)驗(yàn)——提前「預(yù)習(xí)」在 OST-Bench 的幫助有多大?

      為了評(píng)估模型能力的上限,研究團(tuán)隊(duì)基于來(lái)自 7000 個(gè)場(chǎng)景的 5 萬(wàn)條問答數(shù)據(jù)對(duì)多種模型進(jìn)行了微調(diào)實(shí)驗(yàn)。所有模型的分?jǐn)?shù)均提升了超過 10%,證明「提前預(yù)習(xí)突擊」確實(shí)有效。然而,團(tuán)隊(duì)也發(fā)現(xiàn)真正涉及復(fù)雜時(shí)空推理的任務(wù)仍難以突破 50% 的準(zhǔn)確率,說(shuō)明單純微調(diào)并不能觸及問題本質(zhì);此外,模型在部分題型上呈現(xiàn)出明顯的「背答案」傾向而非真正理解。微調(diào)后的模型還容易「變得不聽話」,無(wú)法穩(wěn)定遵守格式對(duì)自己的答案進(jìn)行解釋。

      現(xiàn)象表明:微調(diào)可以帶來(lái)提升,但這種提升更像是「題海戰(zhàn)術(shù)式的熟練」,而非 「機(jī)制上的理解進(jìn)步」。在這門課上,沒有結(jié)構(gòu)和范式的突破,僅靠刷數(shù)據(jù)是無(wú)法真正拿高分的。要攻克 OST-Bench,必須依賴更強(qiáng)的模型設(shè)計(jì)或訓(xùn)練策略。

      總結(jié)

      OST-Bench 提出了一個(gè)在線的時(shí)空?qǐng)鼍袄斫饣鶞?zhǔn),通過對(duì)于多個(gè)多模態(tài)大模型的評(píng)估,揭示了當(dāng)前模型在面對(duì)「在線時(shí)空理解」任務(wù)時(shí)的深層短板,也為未來(lái)模型的發(fā)展指明了方向:突破復(fù)雜空間推理能力與長(zhǎng)期記憶機(jī)制,將是下一代多模態(tài)模型邁向真實(shí)智能世界的關(guān)鍵一步。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      震驚,北京知名建筑裝飾公司暴雷了!

      震驚,北京知名建筑裝飾公司暴雷了!

      黯泉
      2026-02-20 21:21:41
      張本美和父親炮轟王曼昱:球場(chǎng)不文明,對(duì)我女兒失態(tài),不配做球星

      張本美和父親炮轟王曼昱:球場(chǎng)不文明,對(duì)我女兒失態(tài),不配做球星

      運(yùn)動(dòng)探索
      2026-02-21 15:50:06
      特朗普一句“親華派”,把西方扛了幾百年的大旗,送到了中國(guó)手里

      特朗普一句“親華派”,把西方扛了幾百年的大旗,送到了中國(guó)手里

      歷史有些冷
      2026-02-20 15:55:03
      雷軍力推!小米汽車拍全家福火了 網(wǎng)友:30萬(wàn)的車 這一刻就值29萬(wàn)

      雷軍力推!小米汽車拍全家福火了 網(wǎng)友:30萬(wàn)的車 這一刻就值29萬(wàn)

      快科技
      2026-02-18 20:37:20
      美軍增援航母,被目擊

      美軍增援航母,被目擊

      上觀新聞
      2026-02-21 17:59:17
      央視坐實(shí)!成本2元售價(jià)19800元!不少人受騙,趕緊別用了

      央視坐實(shí)!成本2元售價(jià)19800元!不少人受騙,趕緊別用了

      世界圈
      2026-02-12 17:06:45
      同樣帶國(guó)家隊(duì),為何結(jié)果天差地別?從冬奧會(huì)看企業(yè)管理的戰(zhàn)略創(chuàng)新

      同樣帶國(guó)家隊(duì),為何結(jié)果天差地別?從冬奧會(huì)看企業(yè)管理的戰(zhàn)略創(chuàng)新

      徐殿龍
      2026-02-21 17:06:14
      一票否決!匈牙利卡死歐盟900億援烏巨款

      一票否決!匈牙利卡死歐盟900億援烏巨款

      老馬拉車莫少裝
      2026-02-21 14:26:13
      西部格局又變!掘金創(chuàng)紀(jì)錄穩(wěn)住第3 湖人艱難壓木狼 雷霆丟聯(lián)盟第1

      西部格局又變!掘金創(chuàng)紀(jì)錄穩(wěn)住第3 湖人艱難壓木狼 雷霆丟聯(lián)盟第1

      顏小白的籃球夢(mèng)
      2026-02-21 17:36:51
      谷愛凌回?fù)羧f(wàn)斯批評(píng):很多人代表他國(guó)參賽,我只是他們的出氣筒

      谷愛凌回?fù)羧f(wàn)斯批評(píng):很多人代表他國(guó)參賽,我只是他們的出氣筒

      全景體育V
      2026-02-20 12:09:01
      《驚蟄無(wú)聲》朱一龍的性暗示,被張藝謀處理過,但看懂了后背發(fā)涼

      《驚蟄無(wú)聲》朱一龍的性暗示,被張藝謀處理過,但看懂了后背發(fā)涼

      觀察鑒娛
      2026-02-21 10:43:43
      30歲走下坡路的全能中場(chǎng),在德甲沒贏過拜仁,在意甲當(dāng)兩次叛徒

      30歲走下坡路的全能中場(chǎng),在德甲沒贏過拜仁,在意甲當(dāng)兩次叛徒

      95帕爾馬
      2026-02-21 12:10:49
      山東濟(jì)南網(wǎng)紅巨型空飄鰲魚被大風(fēng)吹走,現(xiàn)場(chǎng)工作人員嘗試追回未能成功,網(wǎng)友稱其“金鱗豈是池中物,一遇風(fēng)云便化龍”

      山東濟(jì)南網(wǎng)紅巨型空飄鰲魚被大風(fēng)吹走,現(xiàn)場(chǎng)工作人員嘗試追回未能成功,網(wǎng)友稱其“金鱗豈是池中物,一遇風(fēng)云便化龍”

      極目新聞
      2026-02-20 21:36:29
      西部排名又變了:快船創(chuàng)NBA奇跡,火箭收大禮,2隊(duì)排名互換

      西部排名又變了:快船創(chuàng)NBA奇跡,火箭收大禮,2隊(duì)排名互換

      籃球大視野
      2026-02-20 19:45:26
      大年初五返程!廣東年輕人直言:這個(gè)年,過比上班還累!

      大年初五返程!廣東年輕人直言:這個(gè)年,過比上班還累!

      生活魔術(shù)專家
      2026-02-21 05:10:19
      1986年陳永貴病逝,追悼會(huì)規(guī)格成難題,鄧小平只說(shuō)了一句話,全場(chǎng)安靜

      1986年陳永貴病逝,追悼會(huì)規(guī)格成難題,鄧小平只說(shuō)了一句話,全場(chǎng)安靜

      寄史言志
      2026-01-04 16:34:31
      9年前,那個(gè)3歲識(shí)千字、6歲奪央視冠軍的神童王恒屹,如今怎樣

      9年前,那個(gè)3歲識(shí)千字、6歲奪央視冠軍的神童王恒屹,如今怎樣

      娛說(shuō)瑜悅
      2026-02-19 17:50:07
      因長(zhǎng)得太漂亮,七次拒絕導(dǎo)演“要求”被封殺,43歲終憑實(shí)力拿影后

      因長(zhǎng)得太漂亮,七次拒絕導(dǎo)演“要求”被封殺,43歲終憑實(shí)力拿影后

      近史博覽
      2026-01-23 11:33:12
      “這下好了,中國(guó)怎么可能再買美國(guó)大豆?”

      “這下好了,中國(guó)怎么可能再買美國(guó)大豆?”

      觀察者網(wǎng)
      2026-02-21 13:33:05
      伊能靜秦昊現(xiàn)身沈陽(yáng),她有點(diǎn)臉垮狀態(tài)符合年紀(jì),秦昊頸紋多顯憔悴

      伊能靜秦昊現(xiàn)身沈陽(yáng),她有點(diǎn)臉垮狀態(tài)符合年紀(jì),秦昊頸紋多顯憔悴

      喜歡歷史的阿繁
      2026-02-21 16:59:02
      2026-02-21 18:24:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12325文章數(shù) 142569關(guān)注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      省直機(jī)關(guān)女工程師陷美男計(jì) 拉公職人員丈夫當(dāng)間諜17年

      頭條要聞

      省直機(jī)關(guān)女工程師陷美男計(jì) 拉公職人員丈夫當(dāng)間諜17年

      體育要聞

      冬奧第一"海王"?一人和13國(guó)選手都有關(guān)系

      娛樂要聞

      鏢人反超驚蟄無(wú)聲拿下單日票房第二!

      財(cái)經(jīng)要聞

      一覺醒來(lái),世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔(dān)當(dāng)”來(lái)了 方程豹首款轎車路跑信息曝光

      態(tài)度原創(chuàng)

      手機(jī)
      家居
      親子
      教育
      公開課

      手機(jī)要聞

      小米試產(chǎn)高容量電池,要給旗艦新機(jī)來(lái)點(diǎn)猛的?

      家居要聞

      本真棲居 愛暖伴流年

      親子要聞

      誰(shuí)能猜出他倆是什么關(guān)系?

      教育要聞

      新春走基層 | 慢飛天使捏出 “年的形狀”

      公開課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版