<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Gemini 3僅得33.6分!清華發布首個「約束流形」空間智能基準

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導讀】SSI-Bench是首個在約束流形中評估模型空間推理能力的基準,強調真實結構與約束條件,通過排序任務考察模型是否能準確理解三維結構的幾何與拓撲關系,揭示當前大模型在空間智能上嚴重依賴2D信息,實際表現遠低于人類。研究指出,模型需提升三維構型識別和約束推理能力,才能真正理解空間問題。

      如果你把一個在空間理解榜單上刷分很高的多模態大模型,直接丟進真實世界,它很可能會在看起來很簡單的問題上翻車。

      不是因為它不會「看」,而是因為它從來沒有被迫真正尊重三維結構的可行性——它可以靠2D相關性、外觀先驗、數據集套路,走捷徑拿分。

      而現實世界里,很多空間問題的本質恰恰相反:能怎么擺、怎么連、怎么受力,不是隨意的;可行解往往只存在于一個被幾何、拓撲、物理強約束「壓扁」的空間里。

      為此,清華大學的研究團隊推出SSI-Bench,從AI與結構工程的交叉視角出發,為空間智能評估提供了一種新的場景化思路——將評測置于復雜三維結構的約束流形中,系統檢驗多模態大模型的空間智能表現。


      項目主頁:https://ssi-bench.github.io/

      Arxiv論文:https://arxiv.org/abs/2602.07864

      Hugging Face數據集:https://huggingface.co/datasets/cyang203912/SSI-Bench

      Github代碼庫:https://github.com/ccyydd/SSI-Bench

      論文將這種能力明確界定為Constrained-Manifold Spatial Reasoning(CMSR,約束流形空間推理):

      在此類任務中,潛在三維狀態并非可被任意「臆測」,而是受到顯式約束的限定,僅能落在一個可行解集合內——既需要滿足等式約束(如幾何一致性、連接關系等),也需要滿足不等式約束(如非相交條件、支撐條件與物理可行性等)。

      更重要的是,強約束會顯著收縮可行三維配置空間,使「高度、距離、最短路徑」等空間關系在不同合理解釋下更具穩定性,從而使評測結果具備更好的可量化性與可比性

      SSI-Bench正是在這一背景下提出:它不再將模型置于約束較弱、可自由組合的日常場景中,而是面向復雜真實工程結構構建評測環境,要求模型形成約束一致的三維結構假設,并在此基礎上完成空間推理。


      聚焦復雜三維結構

      純人工硬核打造

      任務形式:用排序題「逼出」真3D

      SSI-Bench不再讓模型做選擇題,而是統一成排序任務:每題給出3或4個候選「構件/構件組」,要求在指定幾何/拓撲準則下輸出正確的全排列順序。

      覆蓋能力:幾何+拓撲+多視角一致性

      全基準共1,000道排序題,任務分兩大類:

      • 幾何類(Geometric):Ground Height / Ground Angle / Dimension / Relative Distance / Area / Volume;

      • 拓撲類(Topological):Hop Distance / Cycle Length等圖結構關系;

      并額外引入多視角題目:以兩張圖配合,一張提供參考構件,一張給出待比較目標,重點考察跨視角構件對應與整體結構一致性。


      構建過程:十位研究者耗費400+小時純人工打磨

      為了保證數據集的質量與多樣性,同時也由于缺乏真實結構構件的標注數據,SSI-Bench的構建流程非常「硬核」——10位研究者投入超過400小時,從大量真實結構圖片中進行人工篩選與題目設計:

      • 數據收集:研究中共計審閱約20,000張結構相關圖片,結構形式包括空間網架、鐵塔、斜拉橋、木竹結構、鋼筋籠、管道等,最終保留2,000+候選;主要來自免版稅來源(Unsplash / Pexels / Pixabay),多視角部分還補充了自采圖像。

      • 任務設計:結合空間智能需求與結構工程專業知識,共精心設計2大類、10小類任務。

      • 元數據標注:判斷每張圖片適用的任務類型,使用Label Studio提供構件定位標注;

      • 問題生成:依據圖片色彩自動選取標注顏色,并按構件位置自動布局標注文本;問題生成后,由人工復核清晰度與遮擋情況。

      • 質量檢驗:每題均由獨立檢查者復核,若存在分歧則交由第三人裁決。最終共獲得1,000道有效題目。


      模型仍在起跑線

      人類領先近六成

      SSI-Bench系統評測了31個主流VLM,結論非常直接:人類幾乎「碾壓式領先」。

      人類平均91.6%,最強閉源33.6%(Gemini-3-Flash),最強開源22.2%(GLM-4.6V),隨機猜測基線12.85%

      也就是說,哪怕拿到當下最強大模型,人類仍然領先58個百分點(91.6 ? 33.6)。


      更為關鍵的是,即使鼓勵模型生成更長的推理過程,整體提升也多停留在邊際層面,難以觸及問題的核心瓶頸。并且在部分高度依賴全局三維一致性的任務(如Multi-View、Volume)中,過度推理反而可能在錯誤的結構假設上持續累積偏差,使結果進一步偏離正確答案。


      從結果到機制

      關鍵瓶頸在哪里?

      論文對代表模型做了人工復盤,歸納出四類高頻錯誤:

      • 構件范圍誤判:僅觀察到局部便誤認為整體,或對端點位置產生錯誤「補全」;遮擋越多,問題越突出。

      • 構件/節點識別錯誤:混淆不同部件,方向判斷失準(例如將傾斜構件誤判為水平或垂直)。

      • 計算與比較邏輯錯誤:在Area/Volume等任務中計算方式錯誤(例如以2D投影替代3D體積),或采用不成立的簡化假設。

      • 3D空間邏輯錯誤:深度關系混亂、跨視角對應失敗、關系組合不穩定,進而導致整體結構假設不一致。

      這也解釋了SSI-Bench的「硬核」并不在于題目刻意刁鉆,而在于它迫使模型直面并補齊兩項關鍵短板:三維結構構型識別約束一致的空間推理


      結語

      SSI-Bench的價值,并不是再造一個「更難的VQA」,而是把空間智能評估拉回一個更接近現實的坐標系:

      當場景是復雜真實結構、當可行解被強約束收縮、當2D捷徑不再可靠——模型是否還能穩定地構建約束一致的3D結構假設并完成推理?

      從目前結果看,答案仍然很殘酷:模型還在起跑線,人類已在終點線附近。

      但也正因如此,SSI-Bench給出了一個非常明確的研究方向:

      讓空間智能體從「會看圖說話」,走向「會在結構里思考」。

      參考資料:

      https://ssi-bench.github.io/

      Yang, C. (楊晨), Lin, G., He, Y., Chen, P., Liu, G., Mo, Y., Xu, Z., Wang, L., Zhang, G., Zhang, Z., Zeng, S., Wang, C. (王琛), & Fan, J. (樊健生) (2026). Thinking in structures: Evaluating spatial intelligence through reasoning on constrained manifolds. arXiv. https://arxiv.org/abs/2602.07864.

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      英劇天花板炸裂三季!9.0+神作封印懸疑天花板!!

      英劇天花板炸裂三季!9.0+神作封印懸疑天花板!!

      民智
      2026-02-25 10:20:47
      從王濛蒙冤到米蘭冬奧慘敗:網友為何死咬王春露不放?這才是真相

      從王濛蒙冤到米蘭冬奧慘敗:網友為何死咬王春露不放?這才是真相

      老馬拉車莫少裝
      2026-02-22 12:19:12
      女子返程被堵高速,發現20多輛私家車占用應急車道行駛,花半小時挨個拍照舉報,當事人發聲;交警回應:處理中

      女子返程被堵高速,發現20多輛私家車占用應急車道行駛,花半小時挨個拍照舉報,當事人發聲;交警回應:處理中

      揚子晚報
      2026-02-24 16:27:31
      王祖賢年輕的時候,腿真漂亮

      王祖賢年輕的時候,腿真漂亮

      小椰的奶奶
      2026-02-22 22:07:37
      只打了3個賽季,就成NBA首人!上帝得有多偏心,創造出這樣的怪物

      只打了3個賽季,就成NBA首人!上帝得有多偏心,創造出這樣的怪物

      毒舌NBA
      2026-02-25 06:21:36
      戰爭還沒有開打,福特號航母自己先敗下陣來,伊朗偷笑,憋死你!

      戰爭還沒有開打,福特號航母自己先敗下陣來,伊朗偷笑,憋死你!

      真的好愛你
      2026-02-25 08:30:49
      《鏢人》逆跌,4人零差評,4人升咖,2人翻紅,只有他被罵慘!

      《鏢人》逆跌,4人零差評,4人升咖,2人翻紅,只有他被罵慘!

      白日追夢人
      2026-02-24 04:04:34
      馬忠名聲不顯,卻斬殺了三國近乎一半的名將,五虎將兩人死于其手

      馬忠名聲不顯,卻斬殺了三國近乎一半的名將,五虎將兩人死于其手

      銘記歷史呀
      2026-02-09 21:57:29
      劉強東稱已接到5條大型游艇訂單,每艘平均賣6000萬歐元?

      劉強東稱已接到5條大型游艇訂單,每艘平均賣6000萬歐元?

      界面新聞
      2026-02-25 16:35:54
      耗資18億!亞洲最大圖書館即將在武漢建成交付,成2026年最值得期待的中國建筑之一

      耗資18億!亞洲最大圖書館即將在武漢建成交付,成2026年最值得期待的中國建筑之一

      越喬
      2026-02-25 11:53:27
      李嘉誠港口被巴拿馬強行沒收,提前撤退未果

      李嘉誠港口被巴拿馬強行沒收,提前撤退未果

      老鷹哥
      2026-02-24 16:46:50
      起風了!賴清德對大陸的稱呼變了,鄭麗文表態驚人,柯建銘落幕了

      起風了!賴清德對大陸的稱呼變了,鄭麗文表態驚人,柯建銘落幕了

      娛樂圈的筆娛君
      2026-02-25 11:56:21
      男孩服務區被撞身亡!父親曝更多 女司機加速兩次 原因曝光令人憤怒

      男孩服務區被撞身亡!父親曝更多 女司機加速兩次 原因曝光令人憤怒

      荷蘭豆愛健康
      2026-02-25 12:02:44
      張藝謀:第一次見她,我對她說,你等著我們來找你,不要亂演電影

      張藝謀:第一次見她,我對她說,你等著我們來找你,不要亂演電影

      秀語千尋
      2026-02-22 19:28:42
      爆:中國電信員工曬2025年終獎工資單!

      爆:中國電信員工曬2025年終獎工資單!

      通信頭條
      2026-02-20 20:42:28
      特朗普稱伊朗正研制能打到美國的導彈

      特朗普稱伊朗正研制能打到美國的導彈

      新華社
      2026-02-25 11:50:08
      互聯網公司“燒錢”80億發紅包,四款AI輪流坐榜首,資本市場不買賬

      互聯網公司“燒錢”80億發紅包,四款AI輪流坐榜首,資本市場不買賬

      紅星資本局
      2026-02-24 19:09:38
      白發長哪里,病就藏哪里!別不信,你的身體早已通過白發向你“報警”!

      白發長哪里,病就藏哪里!別不信,你的身體早已通過白發向你“報警”!

      環球網資訊
      2026-02-01 08:57:23
      山東男子將“博士畢業證”疊成“元寶”燒給去世爺爺:沒能看到我完成學業,用這種方式寄托思念

      山東男子將“博士畢業證”疊成“元寶”燒給去世爺爺:沒能看到我完成學業,用這種方式寄托思念

      大象新聞
      2026-02-25 13:44:10
      廣東男籃繼續補強!朱芳雨親自官宣大外援在路上,杜鋒三選一!

      廣東男籃繼續補強!朱芳雨親自官宣大外援在路上,杜鋒三選一!

      生活新鮮市
      2026-02-25 15:42:29
      2026-02-25 17:24:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14588文章數 66641關注度
      往期回顧 全部

      數碼要聞

      蘋果或年底發布觸屏OLED MacBook Pro 配M6系列芯片

      頭條要聞

      中方就涉烏克蘭問題的決議草案投棄權票 中國代表發聲

      頭條要聞

      中方就涉烏克蘭問題的決議草案投棄權票 中國代表發聲

      體育要聞

      曝雄鹿計劃今夏追小卡 字母哥渴望與其并肩作戰

      娛樂要聞

      撒貝寧到沈陽跑親戚 老婆李白模特身材

      財經要聞

      GEO亂象:誰為AI營銷的泡沫買單?

      科技要聞

      “機器人只跳舞,沒什么用”

      汽車要聞

      750km超長續航 2026款小鵬X9純電版將于3月2日上市

      態度原創

      藝術
      教育
      健康
      時尚
      軍事航空

      藝術要聞

      這位藝術家的馬賽克畫讓人驚嘆不已!

      教育要聞

      剛剛!2026山東單招綜評報名,常見問題,流程公布!

      轉頭就暈的耳石癥,能開車上班嗎?

      普通人穿衣別太老氣橫秋!這些穿搭給你靈感,保暖耐看兩不誤

      軍事要聞

      俄烏沖突四周年:和平談判希望渺茫

      無障礙瀏覽 進入關懷版