![]()
新智元報道
編輯:LRST
【新智元導讀】SSI-Bench是首個在約束流形中評估模型空間推理能力的基準,強調真實結構與約束條件,通過排序任務考察模型是否能準確理解三維結構的幾何與拓撲關系,揭示當前大模型在空間智能上嚴重依賴2D信息,實際表現遠低于人類。研究指出,模型需提升三維構型識別和約束推理能力,才能真正理解空間問題。
如果你把一個在空間理解榜單上刷分很高的多模態大模型,直接丟進真實世界,它很可能會在看起來很簡單的問題上翻車。
不是因為它不會「看」,而是因為它從來沒有被迫真正尊重三維結構的可行性——它可以靠2D相關性、外觀先驗、數據集套路,走捷徑拿分。
而現實世界里,很多空間問題的本質恰恰相反:能怎么擺、怎么連、怎么受力,不是隨意的;可行解往往只存在于一個被幾何、拓撲、物理強約束「壓扁」的空間里。
為此,清華大學的研究團隊推出SSI-Bench,從AI與結構工程的交叉視角出發,為空間智能評估提供了一種新的場景化思路——將評測置于復雜三維結構的約束流形中,系統檢驗多模態大模型的空間智能表現。
![]()
項目主頁:https://ssi-bench.github.io/
Arxiv論文:https://arxiv.org/abs/2602.07864
Hugging Face數據集:https://huggingface.co/datasets/cyang203912/SSI-Bench
Github代碼庫:https://github.com/ccyydd/SSI-Bench
論文將這種能力明確界定為Constrained-Manifold Spatial Reasoning(CMSR,約束流形空間推理):
在此類任務中,潛在三維狀態并非可被任意「臆測」,而是受到顯式約束的限定,僅能落在一個可行解集合內——既需要滿足等式約束(如幾何一致性、連接關系等),也需要滿足不等式約束(如非相交條件、支撐條件與物理可行性等)。
更重要的是,強約束會顯著收縮可行三維配置空間,使「高度、距離、最短路徑」等空間關系在不同合理解釋下更具穩定性,從而使評測結果具備更好的可量化性與可比性。
SSI-Bench正是在這一背景下提出:它不再將模型置于約束較弱、可自由組合的日常場景中,而是面向復雜真實工程結構構建評測環境,要求模型形成約束一致的三維結構假設,并在此基礎上完成空間推理。
![]()
聚焦復雜三維結構
純人工硬核打造
任務形式:用排序題「逼出」真3D
SSI-Bench不再讓模型做選擇題,而是統一成排序任務:每題給出3或4個候選「構件/構件組」,要求在指定幾何/拓撲準則下輸出正確的全排列順序。
覆蓋能力:幾何+拓撲+多視角一致性
全基準共1,000道排序題,任務分兩大類:
幾何類(Geometric):Ground Height / Ground Angle / Dimension / Relative Distance / Area / Volume;
拓撲類(Topological):Hop Distance / Cycle Length等圖結構關系;
并額外引入多視角題目:以兩張圖配合,一張提供參考構件,一張給出待比較目標,重點考察跨視角構件對應與整體結構一致性。
![]()
構建過程:十位研究者耗費400+小時純人工打磨
為了保證數據集的質量與多樣性,同時也由于缺乏真實結構構件的標注數據,SSI-Bench的構建流程非常「硬核」——10位研究者投入超過400小時,從大量真實結構圖片中進行人工篩選與題目設計:
數據收集:研究中共計審閱約20,000張結構相關圖片,結構形式包括空間網架、鐵塔、斜拉橋、木竹結構、鋼筋籠、管道等,最終保留2,000+候選;主要來自免版稅來源(Unsplash / Pexels / Pixabay),多視角部分還補充了自采圖像。
任務設計:結合空間智能需求與結構工程專業知識,共精心設計2大類、10小類任務。
元數據標注:判斷每張圖片適用的任務類型,使用Label Studio提供構件定位標注;
問題生成:依據圖片色彩自動選取標注顏色,并按構件位置自動布局標注文本;問題生成后,由人工復核清晰度與遮擋情況。
質量檢驗:每題均由獨立檢查者復核,若存在分歧則交由第三人裁決。最終共獲得1,000道有效題目。
![]()
模型仍在起跑線
人類領先近六成
SSI-Bench系統評測了31個主流VLM,結論非常直接:人類幾乎「碾壓式領先」。
人類平均91.6%,最強閉源33.6%(Gemini-3-Flash),最強開源22.2%(GLM-4.6V),隨機猜測基線12.85%
也就是說,哪怕拿到當下最強大模型,人類仍然領先58個百分點(91.6 ? 33.6)。
![]()
更為關鍵的是,即使鼓勵模型生成更長的推理過程,整體提升也多停留在邊際層面,難以觸及問題的核心瓶頸。并且在部分高度依賴全局三維一致性的任務(如Multi-View、Volume)中,過度推理反而可能在錯誤的結構假設上持續累積偏差,使結果進一步偏離正確答案。
![]()
從結果到機制
關鍵瓶頸在哪里?
論文對代表模型做了人工復盤,歸納出四類高頻錯誤:
構件范圍誤判:僅觀察到局部便誤認為整體,或對端點位置產生錯誤「補全」;遮擋越多,問題越突出。
構件/節點識別錯誤:混淆不同部件,方向判斷失準(例如將傾斜構件誤判為水平或垂直)。
計算與比較邏輯錯誤:在Area/Volume等任務中計算方式錯誤(例如以2D投影替代3D體積),或采用不成立的簡化假設。
3D空間邏輯錯誤:深度關系混亂、跨視角對應失敗、關系組合不穩定,進而導致整體結構假設不一致。
這也解釋了SSI-Bench的「硬核」并不在于題目刻意刁鉆,而在于它迫使模型直面并補齊兩項關鍵短板:三維結構構型識別與約束一致的空間推理。
![]()
結語
SSI-Bench的價值,并不是再造一個「更難的VQA」,而是把空間智能評估拉回一個更接近現實的坐標系:
當場景是復雜真實結構、當可行解被強約束收縮、當2D捷徑不再可靠——模型是否還能穩定地構建約束一致的3D結構假設并完成推理?
從目前結果看,答案仍然很殘酷:模型還在起跑線,人類已在終點線附近。
但也正因如此,SSI-Bench給出了一個非常明確的研究方向:
讓空間智能體從「會看圖說話」,走向「會在結構里思考」。
參考資料:
https://ssi-bench.github.io/
Yang, C. (楊晨), Lin, G., He, Y., Chen, P., Liu, G., Mo, Y., Xu, Z., Wang, L., Zhang, G., Zhang, Z., Zeng, S., Wang, C. (王琛), & Fan, J. (樊健生) (2026). Thinking in structures: Evaluating spatial intelligence through reasoning on constrained manifolds. arXiv. https://arxiv.org/abs/2602.07864.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.