<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      空間智能終極挑戰MMSI-Video-Bench來了,頂級大模型全軍覆沒

      0
      分享至



      空間理解能力是多模態大語言模型(MLLMs)走向真實物理世界,成為 “通用型智能助手” 的關鍵基礎。但現有的空間智能評測基準往往有兩類問題:一類高度依賴模板生成,限制了問題的多樣性;另一類僅聚焦于某一種空間任務與受限場景,因此很難全面檢驗模型在真實世界中對空間的理解與推理能力。

      要真正走入現實世界,模型不僅需要看得見,更要看得懂空間: 它需要在復雜、多變的真實場景中理解空間布局、感知運動變化、進行時空推理,并基于這些信息做出合理決策,與環境產生有效交互。

      為此,上海人工智能實驗室 InternRobotics 團隊近日推出了一套全面而硬核的空間智能視頻基準 —— MMSI-Video-Bench,對當前主流多模態大模型精心打造了一場挑戰系數極高的 “空間智能大考”。

      本工作由上海人工智能實驗室、上海交通大學、香港中文大學、浙江大學、香港大學、北京航空航天大學、西安交通大學、復旦大學、加州大學洛杉機分校 的研究者們共同完成。



      • 項目主頁: https://rbler1234.github.io/MMSI-VIdeo-Bench.github.io/
      • ArXiv 論文: https://arxiv.org/abs/2512.10863
      • Hugging Face 數據集: https://huggingface.co/datasets/rbler/MMSI-Video-Bench
      • GitHub 代碼庫: https://github.com/InternRobotics/MMSI-Video-Bench

      該基準具有以下顯著特點:

      (1)全面且系統的題型設計

      MMSI-Video-Bench 首先從視頻本身的時空信息理解出發,對模型的基礎空間感知能力進行系統考察,主要包括:

      • 空間構建(Spatial Construction):聚焦于對全局空間布局的理解,涵蓋實體與場景的空間狀態屬性,以及 相機、實體與場景之間的兩兩空間位置關系。
      • 運動理解(Motion Understanding):考察模型對長時運動過程的感知與理解能力,包括實體運動、相機運動,以及多實體之間的交互運動。

      在此基礎上,MMSI-Video-Bench 進一步評測模型基于時空信息進行高層決策的能力,具體包括:

      • 基于視頻信息進行推理與行動的規劃能力(Planning)
      • 對未來狀態進行推斷與想象的預測想象能力(Prediction)

      由于真實世界的觀測在時間上不一定是連續的,在空間上單一視角的信息不一定是完備的,MMSI-Video-Bench 進一步擴展了任務范疇,以更真實地覆蓋現實場景中的復雜情形,考察模型跨視頻的推理能力,這包含了跨時間的記憶更新能力(Memory Update);多視角信息的整合能力(Multi-View Integration)。

      通過上述多層次、多維度的題型設計,MMSI-Video-Bench 構建了一個覆蓋感知、推理與決策全過程的空間智能評測體系



      MMSI-Video-Bench 由五大任務類型,13 個子類問題構成

      (2)極具挑戰性的問題設計

      MMSI-Video-Bench 基準的所有問題由11 位平均研究年限超過 2.5 年的 3D 視覺研究員親自把關精細設計,嚴格驗收打磨,確保了基準每一個問題清晰準確,具有挑戰性。所有模型均表現吃力,即便是最表現最好的 Gemini 3 Pro,也只有 38% 的準確率,相比其它的空間智能基準,具有目前最高的人類–AI 性能差距 (約 60%)。

      (3) 豐富多樣的視頻數據來源

      基準的視頻數據來源于 25 個公開數據集 以及 1 個自建數據集,包含了機器人操作、從單房間到多層樓宇的室內場景、室外建筑與街景、自然風光、體育活動以及電影片段等多種拍攝類型,全面反映了真實世界中復雜多樣、多尺度的空間場景

      (4) 特定領域針對性的能力測評

      此外,受益于場景類型的豐富以及任務類型的全面性,MMSI-Video-Bench 可以劃分出室內場景感知(Indoor Scene Perception)/機器人(Robot) /定位(Grounding) 三大子基準,方便針對性測評模型特定能力。



      MMSI-Video-Bench 的標注流程 和 比例 / 視頻時長 / 詞云分布

      空間智能大考:揭示模型能力邊界與瓶頸

      (1)空間智能大考模型成績單

      研究團隊對 25 個主流多模態模型 進行了評測,整體得分普遍偏低。即便是表現最優的 Gemini 3 Pro(38.0),與人類水平 (96.4) 之間仍存在接近 60%的顯著差距。

      與已有空間智能基準的結論一致,實驗結果再次暴露了當前模型在空間構建能力上的不足。更為關鍵的是,得益于 MMSI-Video-Bench 在任務設計上的全面性,研究團隊進一步發現:模型在 運動理解、規劃、預測以及跨視頻推理 等能力上同樣存在明顯瓶頸。

      在所有任務類型中,預測(Prediction) 是最具挑戰性的主任務, 相機–實體之間的空間關系建模 是難度最高的細分類別。此外,研究團隊發現,即便是經過專門空間任務微調的模型,其能力也未能有效泛化到 MMSI-Video-Bench。



      不同模型在 MMSI-Video-Bench 上的表現

      (2)錯誤分析揭示模型瓶頸

      為進一步定位模型性能受限的關鍵原因,研究團隊對模型的推理結果進行了系統化復盤,并將錯誤歸納為五大類型:

      • 細致定位錯誤 (Detailed Grounding Error):模型在精細視覺感知層面出現失效,常見表現包括目標遺漏混淆,或 “時間點 - 事件” 對應關系感知錯誤。
      • ID 匹配錯誤 (ID Mapping Error):模型在跨幀過程中難以保持一致的實體身份跟蹤。
      • 潛在邏輯推斷錯誤 (Latent Logical Inference Error):模型在需要依賴隱含線索或常識知識的推理任務中失敗。
      • 提示輸入對齊錯誤 (Prompt Alignment Error):模型未能將提示信息(如背景假設、新增條件或輔助圖像)與視頻信息正確結合進行推理。
      • 幾何推理錯誤 (Geometric Reasoning Error):模型在空間幾何關系理解上存在偏差,對于相對位置或距離關系(如前后左右、遠近)出現錯誤推斷。



      MMSI-Video-Bench 的五種錯誤類型示例

      研究團隊選取 Gemini-2.5-Flash、GPT-4o、O3、QwenVL2.5-72B 四個具有代表性的模型進行了系統的錯誤分析和統計,結果如圖所示。幾何推理錯誤是最為普遍、影響最大的錯誤類型,而進一步的細分分析表明:

      • 空間構建任務 的低表現主要源于幾何推理能力不足;
      • 運動理解任務 中,模型難以在 快速、細微或長時間跨度的運動 中保持精確定位;
      • 在 規劃與預測任務 中,除幾何推理錯誤外,模型往往無法有效理解提示輸入,并將其與視頻信息進行聯合推理;
      • 跨視頻推理任務 的失敗主要源于 多目標跨視頻定位的復雜性,以及模型難以利用潛在線索(如持續鎖定同一目標)完成推理。



      MMSI-Video-Bench 的五種錯誤類型分布

      (3)空間線索與推理提示難以彌補核心能力不足

      研究團隊進一步探索了兩種提升模型性能的策略:

      • 引入3D 空間線索以輔助模型理解,如圖所示,通過使用高性能的 3D 重建模型從視頻幀重建 3D 場景,并多視角渲染生成 2D 全局圖像作為額外輸入,給予模型 3D 空間線索輔助模型的理解推理;



      3D 空間線索輔助方法

      • 采用思維鏈(Chain-of-Thought)技術,提示引導模型進行更規范的推理過程。上述方法均 未能帶來顯著的性能提升,這些結果進一步揭示了兩個關鍵事實:
      • 如何設計模型真正 “可理解、可利用” 的空間線索,仍是一個開放且極具挑戰性的問題;
      • 當前模型的失敗 并非由于缺乏顯式推理步驟,而是受限于 底層推理能力本身仍然不足。



      3D 空間線索輔助與思維鏈提示下的模型性能變化

      結語

      MMSI-Video-Bench 是一個高質量、高挑戰性且系統全面的視頻空間智能評測基準,系統性地評估了多模態大模型在視頻理解中的空間認知、推理與決策能力,評測結果清晰揭示了當前模型在多項核心任務上與人類表現之間仍存在顯著差距?;谏钊攵氈碌膶嶒灧治觯芯窟M一步明確了現階段模型的關鍵能力瓶頸,并為未來空間智能模型的技術演進指明了研究方向。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      廈門一5歲男童小區內遇害?警方:嫌犯已自殺身亡

      廈門一5歲男童小區內遇害?警方:嫌犯已自殺身亡

      界面新聞
      2026-01-06 17:06:01
      特斯拉突然官宣:26.35萬起,新車正式發布!

      特斯拉突然官宣:26.35萬起,新車正式發布!

      高科技愛好者
      2026-01-06 22:54:18
      沒想到竟然這么多工作需要保密的!網友:不讓看非看被一槍斃了

      沒想到竟然這么多工作需要保密的!網友:不讓看非看被一槍斃了

      另子維愛讀史
      2025-12-08 20:58:22
      始祖鳥成了海南特產,東北人在三亞瘋狂掃貨

      始祖鳥成了海南特產,東北人在三亞瘋狂掃貨

      源Sight
      2026-01-06 18:51:56
      馬杜羅還有救,聯合國召開大會,6國出面救人,朝鮮下令發射導彈

      馬杜羅還有救,聯合國召開大會,6國出面救人,朝鮮下令發射導彈

      軍機Talk
      2026-01-06 10:23:09
      消息人士:中方正研究收緊對日稀土出口許可審查

      消息人士:中方正研究收緊對日稀土出口許可審查

      中國日報網
      2026-01-06 19:57:02
      茅臺急踩剎車!飛天茅臺搶購規則突變,黃牛徹底懵了!不用預約了

      茅臺急踩剎車!飛天茅臺搶購規則突變,黃牛徹底懵了!不用預約了

      小怪吃美食
      2026-01-07 00:27:09
      閆學晶回擊 風波升級!官媒犀利點評,韓紅因一舉動實現口碑上漲

      閆學晶回擊 風波升級!官媒犀利點評,韓紅因一舉動實現口碑上漲

      李健政觀察
      2026-01-07 09:23:22
      票房狂飆5億!《尋秦記》殺出重圍,這元旦檔為何“神仙打架”?

      票房狂飆5億!《尋秦記》殺出重圍,這元旦檔為何“神仙打架”?

      黃謀仕
      2026-01-06 18:14:40
      用力過猛!51歲林志玲“日系甜妹”現身上海,這次真的驚艷了嗎?

      用力過猛!51歲林志玲“日系甜妹”現身上海,這次真的驚艷了嗎?

      未曾青梅
      2025-12-19 22:58:07
      張學良晚年吐真言:西安事變我只是名義上的,真正的主角是他!楊虎城后人上門,他為何閉口不談?

      張學良晚年吐真言:西安事變我只是名義上的,真正的主角是他!楊虎城后人上門,他為何閉口不談?

      歷史回憶室
      2025-12-16 14:26:14
      45歲富哥“北京肖哥”去世,前一天還曬老婆,死因曝光仇人都惋惜

      45歲富哥“北京肖哥”去世,前一天還曬老婆,死因曝光仇人都惋惜

      嫹筆牂牂
      2025-12-31 07:07:52
      霸氣!45歲邵佳一:執教國足必須進世界杯 若沒這志向我就不合格

      霸氣!45歲邵佳一:執教國足必須進世界杯 若沒這志向我就不合格

      我愛英超
      2026-01-06 20:59:36
      央視曝光!知名國酒是酒精勾兌,年份包裝全造假,電商成重災區

      央視曝光!知名國酒是酒精勾兌,年份包裝全造假,電商成重災區

      單手搓核彈
      2026-01-05 10:16:10
      中方反隱身雷達在委內瑞拉為何失靈?美軍直接無視!有三大真相

      中方反隱身雷達在委內瑞拉為何失靈?美軍直接無視!有三大真相

      人生何嘗不是酒
      2026-01-06 08:02:15
      北京八旬老太餓死家中,4年未火化,幾個兒子后來落魄不堪

      北京八旬老太餓死家中,4年未火化,幾個兒子后來落魄不堪

      明德閱讀
      2026-01-05 19:09:20
      抓馬杜羅合不合法? 美兩黨爭辯 特朗普狡辯

      抓馬杜羅合不合法? 美兩黨爭辯 特朗普狡辯

      墜入二次元的海洋
      2026-01-07 08:49:38
      山東10名市管干部擬任新職

      山東10名市管干部擬任新職

      濱州日報
      2026-01-07 09:19:36
      一年虧損1.8億元 國內首家商業火箭公司擬易主,要求轉讓后摘掉“航天科工”招牌

      一年虧損1.8億元 國內首家商業火箭公司擬易主,要求轉讓后摘掉“航天科工”招牌

      每日經濟新聞
      2026-01-07 08:39:06
      賴昌星發妻曾明娜現狀:逃亡10年后回國,守著3000平老宅安靜養老

      賴昌星發妻曾明娜現狀:逃亡10年后回國,守著3000平老宅安靜養老

      古書記史
      2025-12-12 11:21:38
      2026-01-07 10:52:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12068文章數 142530關注度
      往期回顧 全部

      科技要聞

      馬斯克殺瘋了!xAI官宣200億美元融資

      頭條要聞

      李文榮被公訴:泄露尚未公開企業重組信息 搞權色交易

      頭條要聞

      李文榮被公訴:泄露尚未公開企業重組信息 搞權色交易

      體育要聞

      全明星次輪票數:東契奇票王 詹皇超KD升西部第8

      娛樂要聞

      2026年央視春晚彩排:沈騰確定回歸

      財經要聞

      茅臺為何要和分銷商徹底說拜拜?

      汽車要聞

      摩登出街潮品 實拍奇瑞QQ冰淇淋女王版

      態度原創

      數碼
      家居
      藝術
      時尚
      公開課

      數碼要聞

      聯想官宣6月推SteamOS版Legion Go 2掌機

      家居要聞

      寧靜不單調 恰到好處的美

      藝術要聞

      你也在學書法?先楷后行的秘密曝光!

      冬天穿衣既要有溫度又要有風度!看看這些穿搭,優雅又顯瘦

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲色五月| 国产成人久久久777777麻豆| 鄂托克旗| 国产免费一区二区三区在线观看 | 精品国产乱码久久久久夜深人妻| 久久久久久久久18禁秘| 爱3P| 延津县| 中文字幕无码乱人妻| 99熟妇人妻精品一区五一看片| 天天躁日日躁精品人妻| 久久久无码精品午夜| 国产精品无码av无码| 亚洲一区AV| 中文字幕不卡av无码专线一本| 色窝窝无码一区二区三区色欲| 国产午夜成人av在线播放| 国产日韩欧美| 中文字幕日韩精品人妻| 三级色网| 免费无码VA一区二区三区 | 久久av高潮av| 天天天天噜在线视频| 人妻无码Av| 亚洲自偷自偷在线成人网站传媒| 久久影音先锋| 中日韩中文字幕一区二区| 顶级欧美熟妇高潮xxxxx| 国产情侣草莓视频在线| 丝袜a∨在线一区二区三区不卡| 久久99深爱久久99精品| 成在人线AV无码免观看麻豆| 丝袜美腿亚洲一区在线| 欧美?日本?国产| 精品人妻伦一二三区久久| 九区视频免费观看| freefromvideos性欧美| 日本高清无卡码一区二区久久| 久久永久视频| 日韩无毛| 国产精品VA在线观看老妇女|