<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      引入幾何約束后,VLM跨越了「空間推理」的認(rèn)知鴻溝

      0
      分享至



      現(xiàn)有的視覺大模型普遍存在「語義-幾何鴻溝」(Semantic-to-Geometric Gap),不僅分不清東南西北,更難以處理精確的空間量化任務(wù)。例如問「你坐在沙發(fā)上時,餐桌在你的哪一側(cè)?」,VLM 常常答錯。

      這種「語義?幾何鴻溝」源自于視覺大模型的語義空間無法承載高保真的幾何細(xì)節(jié),導(dǎo)致其在空間推理時是在「憑空瞎猜」,這使得模型讀懂了畫面的語義,卻停留在「語言的世界」中,不具備現(xiàn)實世界賴以運行的幾何直覺,導(dǎo)致空間判斷漏洞百出。



      • 論文標(biāo)題:Geometrically-Constrained Agent for Spatial Reasoning
      • 論文鏈接:https://arxiv.org/pdf/2511.22659
      • 作者團(tuán)隊:Zeren Chen, Xiaoya Lu, Zhijie Zheng, Pengrui Li, Lehan He, Yijin Zhou, Jing Shao, Bohan Zhuang, Lu Sheng
      • 通訊單位:北京航空航天大學(xué),上海人工智能實驗室
      • 項目主頁:https://gca-spatial-reasoning.github.io
      • 項目代碼:https://github.com/gca-spatial-reasoning/gca

      針對這一痛點,北京航空航天大學(xué)上海人工智能實驗室的研究團(tuán)隊創(chuàng)新提出了幾何約束智能體(Geometrically-Constrained Agent, GCA),開創(chuàng)了「先形式化約束,后確定性計算」的空間推理新范式。GCA 不依賴海量數(shù)據(jù)微調(diào),而是通過構(gòu)建形式化任務(wù)約束,強制 VLM 從「模糊直覺」轉(zhuǎn)向「精確求解」,通過視覺工具調(diào)用和編寫計算代碼進(jìn)行參數(shù)化計算,為空間推理搭建了一座可驗證、確定性的幾何橋梁。

      GCA 直接帶領(lǐng) Qwen、Gemini 等基座模型實現(xiàn)「能力躍遷」。在公認(rèn)高難度的 MMSI-Bench 測試中,GCA 將模型性能提升近 50%,擊敗現(xiàn)有 Training-based 及 Tool-integrated 方法,并在多個主流空間推理測試中確立了空間推理領(lǐng)域的新 SOTA。



      核心挑戰(zhàn):跨越「語義 - 幾何」的認(rèn)知鴻溝

      視覺語言模型(VLM)在圖像描述與通用語義理解上表現(xiàn)卓越,然而,當(dāng)任務(wù)轉(zhuǎn)向需要高精度幾何計算的空間推理時 —— 例如判斷物體的精確朝向、測量距離或進(jìn)行視角變換 —— 其表現(xiàn)卻顯著下滑。

      研究團(tuán)隊指出,這種能力斷層的根源在于「語義 - 幾何鴻溝」。具體表現(xiàn)為:

      • 視覺 & 幾何信息的有損壓縮:VLM 將豐富的像素信息壓縮為抽象的語義特征,這一過程如同將一幅詳細(xì)地圖簡化為幾個地標(biāo)名稱,導(dǎo)致物體精確位置、朝向、尺度等高保真幾何細(xì)節(jié)大量丟失。
      • 幾何想象的缺失:以「坐在沙發(fā)上」這一場景為例,VLM 僅能調(diào)用模糊的空間常識(知道人與沙發(fā)通常同向),卻無法在腦海中精確構(gòu)建出「從沙發(fā)視角看去」的三維場景。這種幾何想象力的匱乏,使其在面對復(fù)雜空間推理時力不從心。

      ? 核心方法:基于形式化約束的兩階段推理





      1. 任務(wù)形式化 —— 從「模糊指令」到「精確規(guī)則」

      VLM 首先扮演「語義分析師」的角色,利用其強大的語義理解能力,將模糊的自然語言指令轉(zhuǎn)化為明確的數(shù)學(xué)約束。這一步驟不涉及具體計算,而是確立規(guī)則:



      • 基于物體的參考系 (Object-based Frame):利用物體自身的坐標(biāo)系。例如指令「當(dāng)你在洗手時...」隱含了觀察者必須「面對洗手池」,因此參考系由洗手池的朝向決定。
      • 基于相機的參考系 (Camera-based Frame):即標(biāo)準(zhǔn)的視圖坐標(biāo)系。例如「從圖 1 的視角來看...」,此時參考系直接綁定為相機的基于方向的參考系 (Direction-based Frame):由兩個物體的位置關(guān)系定義。例如「烤箱在水槽的北面」,此時「北」的方向由從水槽指向烤箱的向量嚴(yán)格定義。





      2. 幾何計算 —— 在規(guī)則內(nèi)進(jìn)行「確定性求解」



      • 智能工具調(diào)度與綁定:VLM 像指揮官一樣,調(diào)度 3D 重建等感知工具獲取數(shù)據(jù),并能智能地將「最左邊的椅子」等模糊描述,精準(zhǔn)綁定到具體的幾何對象上,消除語義歧義。
      • 感知與計算的無縫銜接:感知工具負(fù)責(zé)將視覺世界參數(shù)化為高保真 3D 表示,計算工具則負(fù)責(zé)執(zhí)行代碼、完成坐標(biāo)轉(zhuǎn)換,二者在統(tǒng)一框架下協(xié)同,實現(xiàn)從「看到」到「算準(zhǔn)」的閉環(huán)。
      • 檢索增強的可靠計算:采用類似 RAG 的策略,VLM 從一個已驗證的幾何公式庫中檢索正確模型來生成代碼,從根本上杜絕「幻覺」,確保每項計算都基于可靠的物理原理。

      實驗結(jié)果:全新的空間推理 SOTA

      在 MMSI-Bench、MindCube-tiny、OmniSpatial 等多個主流空間推理基準(zhǔn)上,GCA 證明了其有效性,構(gòu)建了一個全新的空間智能 SOTA。

      綜合性能提升

      GCA 取得了 65.1% 的平均準(zhǔn)確率,顯著超越了現(xiàn)有基于訓(xùn)練的方法與工具集成的方法。特別是在極具挑戰(zhàn)性的多圖空間推理基準(zhǔn) MMSI-Bench 中,面對復(fù)雜的視角變換與相對方位推斷,現(xiàn)有主流模型往往只能徘徊在 25%~30% 左右的「隨機猜測」水平線。

      而基于 Qwen3-VL-Thinking 構(gòu)建的 GCA,準(zhǔn)確率從 32.6% 躍升至 47.6%。這一數(shù)據(jù)證明,GCA 成功讓 VLM 擺脫了「蒙答案」的困境,向具備可靠的空間推理能力邁出了關(guān)鍵一步。

      強大的通用性

      GCA 并非特定模型的「專屬補丁」,而是一種無需訓(xùn)練(Training-free)的通用推理范式,可直接賦能各類基座模型。

      實驗顯示,在搭載 GCA 架構(gòu)后,受測模型在 MMSI-Bench 上的性能平均實現(xiàn)了約 37% 的相對提升。其中,基于 Gemini-2.5-Pro 構(gòu)建的 GCA 表現(xiàn)尤為驚艷,其準(zhǔn)確率從 36.9% 飛躍至 55.0%,有效地激發(fā)了頂級模型的空間推理潛力。





      通過系統(tǒng)的消融實驗與歸因分析,研究進(jìn)一步證實了 GCA 架構(gòu)的前瞻性:



      • 可解釋的錯誤歸因:得益于 GCA 架構(gòu)的模塊化設(shè)計,研究團(tuán)隊能夠?qū)ν评礞溌愤M(jìn)行精確的錯誤歸因。分析顯示,VLM 在「任務(wù)形式化」階段的準(zhǔn)確率已高達(dá)~70%,當(dāng)前主要錯誤來源于下游感知工具(如 3D 重建失敗或遮擋)。這表明,GCA 的推理邏輯是穩(wěn)健的,其性能將隨著感知模型的進(jìn)步而持續(xù)提升。



      總結(jié)與意義

      GCA 提出了一種「語言定義約束,幾何執(zhí)行計算」的新范式。通過將模糊的空間查詢轉(zhuǎn)化為帶約束的數(shù)學(xué)問題,GCA 有效避免了 VLM 在有損語義空間中進(jìn)行不可靠的空間想象。這不僅大幅提升了推理的準(zhǔn)確性,也讓機器向擁有「幾何直覺」邁出了關(guān)鍵一步,回應(yīng)了攀登「空間智能」高峰的核心挑戰(zhàn)。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      塔山之戰(zhàn)到底多慘烈?戰(zhàn)后9位將軍長眠,總預(yù)備隊為何最后都沒上

      塔山之戰(zhàn)到底多慘烈?戰(zhàn)后9位將軍長眠,總預(yù)備隊為何最后都沒上

      老范談史
      2026-02-27 15:47:46
      一歲幼童在高鐵上哭鬧,男子吆喝乘警介入,要求一家三口離開

      一歲幼童在高鐵上哭鬧,男子吆喝乘警介入,要求一家三口離開

      一盅情懷
      2026-02-27 14:04:00
      市場監(jiān)管總局:不提供堂食的外賣商家必須在其主頁面顯著位置設(shè)置“無堂食”標(biāo)識

      市場監(jiān)管總局:不提供堂食的外賣商家必須在其主頁面顯著位置設(shè)置“無堂食”標(biāo)識

      貝殼財經(jīng)
      2026-02-26 21:15:03
      美國女議員:谷愛凌生在美國卻不尊重美國 不回中國還要回美國

      美國女議員:谷愛凌生在美國卻不尊重美國 不回中國還要回美國

      念洲
      2026-02-26 08:33:10
      太溫馨了,小箖箖與姐姐去探望后媽,小玥兒抱小弟弟的動作很嫻熟

      太溫馨了,小箖箖與姐姐去探望后媽,小玥兒抱小弟弟的動作很嫻熟

      天天熱點見聞
      2026-02-27 06:59:24
      57歲周濤,“勇闖短劇圈”

      57歲周濤,“勇闖短劇圈”

      上觀新聞
      2026-02-27 10:19:52
      南京雙胞胎決裂內(nèi)情曝光:生父讓哥哥把賬號給弟弟,說弟弟更聰明

      南京雙胞胎決裂內(nèi)情曝光:生父讓哥哥把賬號給弟弟,說弟弟更聰明

      江山揮筆
      2026-02-27 11:19:49
      38000億!張一鳴賺麻了!

      38000億!張一鳴賺麻了!

      TOP電商
      2026-02-27 17:00:09
      王楚欽賽后直言:對陣林德是一場丑陋的勝利,面對張禹珍又是惡戰(zhàn)

      王楚欽賽后直言:對陣林德是一場丑陋的勝利,面對張禹珍又是惡戰(zhàn)

      乒談
      2026-02-26 23:18:09
      梅婷大年初九在北京別墅宴客,和德華劉琳同框,吃海鮮大口喝酒

      梅婷大年初九在北京別墅宴客,和德華劉琳同框,吃海鮮大口喝酒

      林雁飛
      2026-02-27 16:36:10
      痛心!上海29歲男子跑網(wǎng)約車過勞離世,母親哭訴他只是想好好活著

      痛心!上海29歲男子跑網(wǎng)約車過勞離世,母親哭訴他只是想好好活著

      火山詩話
      2026-02-27 05:22:12
      突發(fā)!56歲女主持人去世,昏迷3天家人決定拔管,不愿讓她受折磨

      突發(fā)!56歲女主持人去世,昏迷3天家人決定拔管,不愿讓她受折磨

      石辰搞笑日常
      2026-02-27 10:24:01
      廣西4市補選政協(xié)主席、副主席

      廣西4市補選政協(xié)主席、副主席

      小陸搞笑日常
      2026-02-27 17:33:59
      超8.1萬方!武漢一大型小區(qū)將改造

      超8.1萬方!武漢一大型小區(qū)將改造

      越喬
      2026-02-27 14:13:39
      在小縣城名聲很臭是啥體驗?網(wǎng)友:臉皮夠厚,一切不成問題

      在小縣城名聲很臭是啥體驗?網(wǎng)友:臉皮夠厚,一切不成問題

      解讀熱點事件
      2026-02-04 00:05:07
      朝鮮"忘記"中國恩情?教科書這樣記錄歷史,看完后很多人被刺痛了

      朝鮮"忘記"中國恩情?教科書這樣記錄歷史,看完后很多人被刺痛了

      小莜讀史
      2026-02-23 14:28:01
      王媛可一家四口泰國度假,王雨都42了還那么帥,與兒子同框像兄弟

      王媛可一家四口泰國度假,王雨都42了還那么帥,與兒子同框像兄弟

      八怪娛
      2026-02-27 17:09:25
      汪小菲月子中心陪伴幼子,家庭和睦盡顯幸福

      汪小菲月子中心陪伴幼子,家庭和睦盡顯幸福

      述家娛記
      2026-02-27 16:50:41
      從爭議到主流:預(yù)制菜的春節(jié)“翻身仗”

      從爭議到主流:預(yù)制菜的春節(jié)“翻身仗”

      鋅刻度
      2026-02-26 17:41:40
      精神小妹的生活原來是這樣的!網(wǎng)友:終于知道她們?yōu)樯抖歼@么瘦了

      精神小妹的生活原來是這樣的!網(wǎng)友:終于知道她們?yōu)樯抖歼@么瘦了

      深度報
      2026-02-11 23:35:03
      2026-02-27 19:48:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12374文章數(shù) 142571關(guān)注度
      往期回顧 全部

      科技要聞

      單張不到五毛!谷歌深夜發(fā)布Nano Banana 2

      頭條要聞

      世界經(jīng)濟(jì)論壇總裁辭職 曾私信愛潑斯坦稱對方"天才"

      頭條要聞

      世界經(jīng)濟(jì)論壇總裁辭職 曾私信愛潑斯坦稱對方"天才"

      體育要聞

      一場必須要贏的比賽,男籃何止擊敗了裁判

      娛樂要聞

      繼網(wǎng)暴谷愛凌后 美國欲沒收其全部收入

      財經(jīng)要聞

      沈明高提共富建議 百姓持科技股國家兜底

      汽車要聞

      嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

      態(tài)度原創(chuàng)

      健康
      手機
      房產(chǎn)
      公開課
      軍事航空

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      手機要聞

      三星版“豆包手機”發(fā)布 深度綁定AI

      房產(chǎn)要聞

      重磅!海南“十五五”規(guī)劃出爐!未來五年,方向定了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美國11架F-22隱形戰(zhàn)機抵達(dá)以色列

      無障礙瀏覽 進(jìn)入關(guān)懷版