網易首頁 > 網易號 > 正文申請入駐

空間智能終極挑戰MMSI-Video-Bench來了，頂級大模型全軍覆沒

2026-01-05 17:21:42　來源: 機器之心Pro

河北舉報

分享至

空間理解能力是多模態大語言模型（MLLMs）走向真實物理世界，成為 “通用型智能助手” 的關鍵基礎。但現有的空間智能評測基準往往有兩類問題：一類高度依賴模板生成，限制了問題的多樣性；另一類僅聚焦于某一種空間任務與受限場景，因此很難全面檢驗模型在真實世界中對空間的理解與推理能力。

要真正走入現實世界，模型不僅需要看得見，更要看得懂空間：它需要在復雜、多變的真實場景中理解空間布局、感知運動變化、進行時空推理，并基于這些信息做出合理決策，與環境產生有效交互。

為此，上海人工智能實驗室 InternRobotics 團隊近日推出了一套全面而硬核的空間智能視頻基準 —— MMSI-Video-Bench，對當前主流多模態大模型精心打造了一場挑戰系數極高的 “空間智能大考”。

本工作由上海人工智能實驗室、上海交通大學、香港中文大學、浙江大學、香港大學、北京航空航天大學、西安交通大學、復旦大學、加州大學洛杉機分校的研究者們共同完成。

項目主頁： https://rbler1234.github.io/MMSI-VIdeo-Bench.github.io/
ArXiv 論文： https://arxiv.org/abs/2512.10863
Hugging Face 數據集： https://huggingface.co/datasets/rbler/MMSI-Video-Bench
GitHub 代碼庫： https://github.com/InternRobotics/MMSI-Video-Bench

該基準具有以下顯著特點：

（1）全面且系統的題型設計

MMSI-Video-Bench 首先從視頻本身的時空信息理解出發，對模型的基礎空間感知能力進行系統考察，主要包括：

空間構建（Spatial Construction）：聚焦于對全局空間布局的理解，涵蓋實體與場景的空間狀態屬性，以及相機、實體與場景之間的兩兩空間位置關系。
運動理解（Motion Understanding）：考察模型對長時運動過程的感知與理解能力，包括實體運動、相機運動，以及多實體之間的交互運動。

在此基礎上，MMSI-Video-Bench 進一步評測模型基于時空信息進行高層決策的能力，具體包括：

基于視頻信息進行推理與行動的規劃能力（Planning）
對未來狀態進行推斷與想象的預測想象能力（Prediction）

由于真實世界的觀測在時間上不一定是連續的，在空間上單一視角的信息不一定是完備的，MMSI-Video-Bench 進一步擴展了任務范疇，以更真實地覆蓋現實場景中的復雜情形，考察模型跨視頻的推理能力，這包含了跨時間的記憶更新能力（Memory Update）；多視角信息的整合能力（Multi-View Integration）。

通過上述多層次、多維度的題型設計，MMSI-Video-Bench 構建了一個覆蓋感知、推理與決策全過程的空間智能評測體系

MMSI-Video-Bench 由五大任務類型，13 個子類問題構成

（2）極具挑戰性的問題設計

MMSI-Video-Bench 基準的所有問題由11 位平均研究年限超過 2.5 年的 3D 視覺研究員親自把關精細設計，嚴格驗收打磨，確保了基準每一個問題清晰準確，具有挑戰性。所有模型均表現吃力，即便是最表現最好的 Gemini 3 Pro，也只有 38% 的準確率，相比其它的空間智能基準，具有目前最高的人類–AI 性能差距 (約 60%)。

(3) 豐富多樣的視頻數據來源

基準的視頻數據來源于 25 個公開數據集以及 1 個自建數據集，包含了機器人操作、從單房間到多層樓宇的室內場景、室外建筑與街景、自然風光、體育活動以及電影片段等多種拍攝類型，全面反映了真實世界中復雜多樣、多尺度的空間場景

(4) 特定領域針對性的能力測評

此外，受益于場景類型的豐富以及任務類型的全面性，MMSI-Video-Bench 可以劃分出室內場景感知(Indoor Scene Perception)/機器人(Robot) /定位(Grounding) 三大子基準，方便針對性測評模型特定能力。

MMSI-Video-Bench 的標注流程和比例 / 視頻時長 / 詞云分布

空間智能大考：揭示模型能力邊界與瓶頸

（1）空間智能大考模型成績單

研究團隊對 25 個主流多模態模型進行了評測，整體得分普遍偏低。即便是表現最優的 Gemini 3 Pro（38.0），與人類水平（96.4）之間仍存在接近 60%的顯著差距。

與已有空間智能基準的結論一致，實驗結果再次暴露了當前模型在空間構建能力上的不足。更為關鍵的是，得益于 MMSI-Video-Bench 在任務設計上的全面性，研究團隊進一步發現：模型在運動理解、規劃、預測以及跨視頻推理等能力上同樣存在明顯瓶頸。

在所有任務類型中，預測（Prediction）是最具挑戰性的主任務，相機–實體之間的空間關系建模是難度最高的細分類別。此外，研究團隊發現，即便是經過專門空間任務微調的模型，其能力也未能有效泛化到 MMSI-Video-Bench。

不同模型在 MMSI-Video-Bench 上的表現

（2）錯誤分析揭示模型瓶頸

為進一步定位模型性能受限的關鍵原因，研究團隊對模型的推理結果進行了系統化復盤，并將錯誤歸納為五大類型:

細致定位錯誤 (Detailed Grounding Error)：模型在精細視覺感知層面出現失效，常見表現包括目標遺漏混淆，或 “時間點 - 事件” 對應關系感知錯誤。
ID 匹配錯誤 (ID Mapping Error)：模型在跨幀過程中難以保持一致的實體身份跟蹤。
潛在邏輯推斷錯誤 (Latent Logical Inference Error)：模型在需要依賴隱含線索或常識知識的推理任務中失敗。
提示輸入對齊錯誤 (Prompt Alignment Error)：模型未能將提示信息（如背景假設、新增條件或輔助圖像）與視頻信息正確結合進行推理。
幾何推理錯誤 (Geometric Reasoning Error)：模型在空間幾何關系理解上存在偏差，對于相對位置或距離關系（如前后左右、遠近）出現錯誤推斷。

MMSI-Video-Bench 的五種錯誤類型示例

研究團隊選取 Gemini-2.5-Flash、GPT-4o、O3、QwenVL2.5-72B 四個具有代表性的模型進行了系統的錯誤分析和統計，結果如圖所示。幾何推理錯誤是最為普遍、影響最大的錯誤類型，而進一步的細分分析表明：

空間構建任務的低表現主要源于幾何推理能力不足；
運動理解任務中，模型難以在快速、細微或長時間跨度的運動中保持精確定位；
在規劃與預測任務中，除幾何推理錯誤外，模型往往無法有效理解提示輸入，并將其與視頻信息進行聯合推理；
跨視頻推理任務的失敗主要源于多目標跨視頻定位的復雜性，以及模型難以利用潛在線索（如持續鎖定同一目標）完成推理。

MMSI-Video-Bench 的五種錯誤類型分布

（3）空間線索與推理提示難以彌補核心能力不足

研究團隊進一步探索了兩種提升模型性能的策略：

引入3D 空間線索以輔助模型理解，如圖所示，通過使用高性能的 3D 重建模型從視頻幀重建 3D 場景，并多視角渲染生成 2D 全局圖像作為額外輸入，給予模型 3D 空間線索輔助模型的理解推理；

3D 空間線索輔助方法

采用思維鏈（Chain-of-Thought）技術，提示引導模型進行更規范的推理過程。上述方法均未能帶來顯著的性能提升，這些結果進一步揭示了兩個關鍵事實：
如何設計模型真正 “可理解、可利用” 的空間線索，仍是一個開放且極具挑戰性的問題；
當前模型的失敗并非由于缺乏顯式推理步驟，而是受限于底層推理能力本身仍然不足。

3D 空間線索輔助與思維鏈提示下的模型性能變化

結語

MMSI-Video-Bench 是一個高質量、高挑戰性且系統全面的視頻空間智能評測基準，系統性地評估了多模態大模型在視頻理解中的空間認知、推理與決策能力，評測結果清晰揭示了當前模型在多項核心任務上與人類表現之間仍存在顯著差距?；谏钊攵氈碌膶嶒灧治觯芯窟M一步明確了現階段模型的關鍵能力瓶頸，并為未來空間智能模型的技術演進指明了研究方向。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.