網易首頁 > 網易號 > 正文申請入駐

Gemini 3僅得33.6分！清華發布首個「約束流形」空間智能基準

2026-02-25 14:01:00　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】SSI-Bench是首個在約束流形中評估模型空間推理能力的基準，強調真實結構與約束條件，通過排序任務考察模型是否能準確理解三維結構的幾何與拓撲關系，揭示當前大模型在空間智能上嚴重依賴2D信息，實際表現遠低于人類。研究指出，模型需提升三維構型識別和約束推理能力，才能真正理解空間問題。

如果你把一個在空間理解榜單上刷分很高的多模態大模型，直接丟進真實世界，它很可能會在看起來很簡單的問題上翻車。

不是因為它不會「看」，而是因為它從來沒有被迫真正尊重三維結構的可行性——它可以靠2D相關性、外觀先驗、數據集套路，走捷徑拿分。

而現實世界里，很多空間問題的本質恰恰相反：能怎么擺、怎么連、怎么受力，不是隨意的；可行解往往只存在于一個被幾何、拓撲、物理強約束「壓扁」的空間里。

為此，清華大學的研究團隊推出SSI-Bench，從AI與結構工程的交叉視角出發，為空間智能評估提供了一種新的場景化思路——將評測置于復雜三維結構的約束流形中，系統檢驗多模態大模型的空間智能表現。

項目主頁：https://ssi-bench.github.io/

Arxiv論文：https://arxiv.org/abs/2602.07864

Hugging Face數據集：https://huggingface.co/datasets/cyang203912/SSI-Bench

Github代碼庫：https://github.com/ccyydd/SSI-Bench

論文將這種能力明確界定為Constrained-Manifold Spatial Reasoning（CMSR，約束流形空間推理）：

在此類任務中，潛在三維狀態并非可被任意「臆測」，而是受到顯式約束的限定，僅能落在一個可行解集合內——既需要滿足等式約束（如幾何一致性、連接關系等），也需要滿足不等式約束（如非相交條件、支撐條件與物理可行性等）。

更重要的是，強約束會顯著收縮可行三維配置空間，使「高度、距離、最短路徑」等空間關系在不同合理解釋下更具穩定性，從而使評測結果具備更好的可量化性與可比性。

SSI-Bench正是在這一背景下提出：它不再將模型置于約束較弱、可自由組合的日常場景中，而是面向復雜真實工程結構構建評測環境，要求模型形成約束一致的三維結構假設，并在此基礎上完成空間推理。

聚焦復雜三維結構

純人工硬核打造

任務形式：用排序題「逼出」真3D

SSI-Bench不再讓模型做選擇題，而是統一成排序任務：每題給出3或4個候選「構件/構件組」，要求在指定幾何/拓撲準則下輸出正確的全排列順序。

覆蓋能力：幾何+拓撲+多視角一致性

全基準共1,000道排序題，任務分兩大類：

幾何類（Geometric）：Ground Height / Ground Angle / Dimension / Relative Distance / Area / Volume；
拓撲類（Topological）：Hop Distance / Cycle Length等圖結構關系；

并額外引入多視角題目：以兩張圖配合，一張提供參考構件，一張給出待比較目標，重點考察跨視角構件對應與整體結構一致性。

構建過程：十位研究者耗費400+小時純人工打磨

為了保證數據集的質量與多樣性，同時也由于缺乏真實結構構件的標注數據，SSI-Bench的構建流程非常「硬核」——10位研究者投入超過400小時，從大量真實結構圖片中進行人工篩選與題目設計：

數據收集：研究中共計審閱約20,000張結構相關圖片，結構形式包括空間網架、鐵塔、斜拉橋、木竹結構、鋼筋籠、管道等，最終保留2,000+候選；主要來自免版稅來源（Unsplash / Pexels / Pixabay），多視角部分還補充了自采圖像。
任務設計：結合空間智能需求與結構工程專業知識，共精心設計2大類、10小類任務。
元數據標注：判斷每張圖片適用的任務類型，使用Label Studio提供構件定位標注；
問題生成：依據圖片色彩自動選取標注顏色，并按構件位置自動布局標注文本；問題生成后，由人工復核清晰度與遮擋情況。
質量檢驗：每題均由獨立檢查者復核，若存在分歧則交由第三人裁決。最終共獲得1,000道有效題目。

模型仍在起跑線

人類領先近六成

SSI-Bench系統評測了31個主流VLM，結論非常直接：人類幾乎「碾壓式領先」。

人類平均91.6%，最強閉源33.6%（Gemini-3-Flash），最強開源22.2%（GLM-4.6V），隨機猜測基線12.85%

也就是說，哪怕拿到當下最強大模型，人類仍然領先58個百分點（91.6 ? 33.6）。

更為關鍵的是，即使鼓勵模型生成更長的推理過程，整體提升也多停留在邊際層面，難以觸及問題的核心瓶頸。并且在部分高度依賴全局三維一致性的任務（如Multi-View、Volume）中，過度推理反而可能在錯誤的結構假設上持續累積偏差，使結果進一步偏離正確答案。

從結果到機制

關鍵瓶頸在哪里？

論文對代表模型做了人工復盤，歸納出四類高頻錯誤：

構件范圍誤判：僅觀察到局部便誤認為整體，或對端點位置產生錯誤「補全」；遮擋越多，問題越突出。
構件/節點識別錯誤：混淆不同部件，方向判斷失準（例如將傾斜構件誤判為水平或垂直）。
計算與比較邏輯錯誤：在Area/Volume等任務中計算方式錯誤（例如以2D投影替代3D體積），或采用不成立的簡化假設。
3D空間邏輯錯誤：深度關系混亂、跨視角對應失敗、關系組合不穩定，進而導致整體結構假設不一致。

這也解釋了SSI-Bench的「硬核」并不在于題目刻意刁鉆，而在于它迫使模型直面并補齊兩項關鍵短板：三維結構構型識別與約束一致的空間推理。

結語

SSI-Bench的價值，并不是再造一個「更難的VQA」，而是把空間智能評估拉回一個更接近現實的坐標系：

當場景是復雜真實結構、當可行解被強約束收縮、當2D捷徑不再可靠——模型是否還能穩定地構建約束一致的3D結構假設并完成推理？

從目前結果看，答案仍然很殘酷：模型還在起跑線，人類已在終點線附近。

但也正因如此，SSI-Bench給出了一個非常明確的研究方向：

讓空間智能體從「會看圖說話」，走向「會在結構里思考」。

參考資料：

https://ssi-bench.github.io/

Yang, C. (楊晨), Lin, G., He, Y., Chen, P., Liu, G., Mo, Y., Xu, Z., Wang, L., Zhang, G., Zhang, Z., Zeng, S., Wang, C. (王琛), & Fan, J. (樊健生) (2026). Thinking in structures: Evaluating spatial intelligence through reasoning on constrained manifolds. arXiv. https://arxiv.org/abs/2602.07864.

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.