<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      引入幾何約束后,VLM跨越了「空間推理」的認知鴻溝

      0
      分享至



      現(xiàn)有的視覺大模型普遍存在「語義-幾何鴻溝」(Semantic-to-Geometric Gap),不僅分不清東南西北,更難以處理精確的空間量化任務(wù)。例如問「你坐在沙發(fā)上時,餐桌在你的哪一側(cè)?」,VLM 常常答錯。

      這種「語義?幾何鴻溝」源自于視覺大模型的語義空間無法承載高保真的幾何細節(jié),導(dǎo)致其在空間推理時是在「憑空瞎猜」,這使得模型讀懂了畫面的語義,卻停留在「語言的世界」中,不具備現(xiàn)實世界賴以運行的幾何直覺,導(dǎo)致空間判斷漏洞百出。



      • 論文標題:Geometrically-Constrained Agent for Spatial Reasoning
      • 論文鏈接:https://arxiv.org/pdf/2511.22659
      • 作者團隊:Zeren Chen, Xiaoya Lu, Zhijie Zheng, Pengrui Li, Lehan He, Yijin Zhou, Jing Shao, Bohan Zhuang, Lu Sheng
      • 通訊單位:北京航空航天大學(xué),上海人工智能實驗室
      • 項目主頁:https://gca-spatial-reasoning.github.io
      • 項目代碼:https://github.com/gca-spatial-reasoning/gca

      針對這一痛點,北京航空航天大學(xué)上海人工智能實驗室的研究團隊創(chuàng)新提出了幾何約束智能體(Geometrically-Constrained Agent, GCA),開創(chuàng)了「先形式化約束,后確定性計算」的空間推理新范式。GCA 不依賴海量數(shù)據(jù)微調(diào),而是通過構(gòu)建形式化任務(wù)約束,強制 VLM 從「模糊直覺」轉(zhuǎn)向「精確求解」,通過視覺工具調(diào)用和編寫計算代碼進行參數(shù)化計算,為空間推理搭建了一座可驗證、確定性的幾何橋梁。

      GCA 直接帶領(lǐng) Qwen、Gemini 等基座模型實現(xiàn)「能力躍遷」。在公認高難度的 MMSI-Bench 測試中,GCA 將模型性能提升近 50%,擊敗現(xiàn)有 Training-based 及 Tool-integrated 方法,并在多個主流空間推理測試中確立了空間推理領(lǐng)域的新 SOTA。



      核心挑戰(zhàn):跨越「語義 - 幾何」的認知鴻溝

      視覺語言模型(VLM)在圖像描述與通用語義理解上表現(xiàn)卓越,然而,當任務(wù)轉(zhuǎn)向需要高精度幾何計算的空間推理時 —— 例如判斷物體的精確朝向、測量距離或進行視角變換 —— 其表現(xiàn)卻顯著下滑。

      研究團隊指出,這種能力斷層的根源在于「語義 - 幾何鴻溝」。具體表現(xiàn)為:

      • 視覺 & 幾何信息的有損壓縮:VLM 將豐富的像素信息壓縮為抽象的語義特征,這一過程如同將一幅詳細地圖簡化為幾個地標名稱,導(dǎo)致物體精確位置、朝向、尺度等高保真幾何細節(jié)大量丟失。
      • 幾何想象的缺失:以「坐在沙發(fā)上」這一場景為例,VLM 僅能調(diào)用模糊的空間常識(知道人與沙發(fā)通常同向),卻無法在腦海中精確構(gòu)建出「從沙發(fā)視角看去」的三維場景。這種幾何想象力的匱乏,使其在面對復(fù)雜空間推理時力不從心。

      ? 核心方法:基于形式化約束的兩階段推理





      1. 任務(wù)形式化 —— 從「模糊指令」到「精確規(guī)則」

      VLM 首先扮演「語義分析師」的角色,利用其強大的語義理解能力,將模糊的自然語言指令轉(zhuǎn)化為明確的數(shù)學(xué)約束。這一步驟不涉及具體計算,而是確立規(guī)則:



      • 基于物體的參考系 (Object-based Frame):利用物體自身的坐標系。例如指令「當你在洗手時...」隱含了觀察者必須「面對洗手池」,因此參考系由洗手池的朝向決定。
      • 基于相機的參考系 (Camera-based Frame):即標準的視圖坐標系。例如「從圖 1 的視角來看...」,此時參考系直接綁定為相機的基于方向的參考系 (Direction-based Frame):由兩個物體的位置關(guān)系定義。例如「烤箱在水槽的北面」,此時「北」的方向由從水槽指向烤箱的向量嚴格定義。





      2. 幾何計算 —— 在規(guī)則內(nèi)進行「確定性求解」



      • 智能工具調(diào)度與綁定:VLM 像指揮官一樣,調(diào)度 3D 重建等感知工具獲取數(shù)據(jù),并能智能地將「最左邊的椅子」等模糊描述,精準綁定到具體的幾何對象上,消除語義歧義。
      • 感知與計算的無縫銜接:感知工具負責(zé)將視覺世界參數(shù)化為高保真 3D 表示,計算工具則負責(zé)執(zhí)行代碼、完成坐標轉(zhuǎn)換,二者在統(tǒng)一框架下協(xié)同,實現(xiàn)從「看到」到「算準」的閉環(huán)。
      • 檢索增強的可靠計算:采用類似 RAG 的策略,VLM 從一個已驗證的幾何公式庫中檢索正確模型來生成代碼,從根本上杜絕「幻覺」,確保每項計算都基于可靠的物理原理。

      實驗結(jié)果:全新的空間推理 SOTA

      在 MMSI-Bench、MindCube-tiny、OmniSpatial 等多個主流空間推理基準上,GCA 證明了其有效性,構(gòu)建了一個全新的空間智能 SOTA。

      綜合性能提升

      GCA 取得了 65.1% 的平均準確率,顯著超越了現(xiàn)有基于訓(xùn)練的方法與工具集成的方法。特別是在極具挑戰(zhàn)性的多圖空間推理基準 MMSI-Bench 中,面對復(fù)雜的視角變換與相對方位推斷,現(xiàn)有主流模型往往只能徘徊在 25%~30% 左右的「隨機猜測」水平線。

      而基于 Qwen3-VL-Thinking 構(gòu)建的 GCA,準確率從 32.6% 躍升至 47.6%。這一數(shù)據(jù)證明,GCA 成功讓 VLM 擺脫了「蒙答案」的困境,向具備可靠的空間推理能力邁出了關(guān)鍵一步。

      強大的通用性

      GCA 并非特定模型的「專屬補丁」,而是一種無需訓(xùn)練(Training-free)的通用推理范式,可直接賦能各類基座模型。

      實驗顯示,在搭載 GCA 架構(gòu)后,受測模型在 MMSI-Bench 上的性能平均實現(xiàn)了約 37% 的相對提升。其中,基于 Gemini-2.5-Pro 構(gòu)建的 GCA 表現(xiàn)尤為驚艷,其準確率從 36.9% 飛躍至 55.0%,有效地激發(fā)了頂級模型的空間推理潛力。





      通過系統(tǒng)的消融實驗與歸因分析,研究進一步證實了 GCA 架構(gòu)的前瞻性:



      • 可解釋的錯誤歸因:得益于 GCA 架構(gòu)的模塊化設(shè)計,研究團隊能夠?qū)ν评礞溌愤M行精確的錯誤歸因。分析顯示,VLM 在「任務(wù)形式化」階段的準確率已高達~70%,當前主要錯誤來源于下游感知工具(如 3D 重建失敗或遮擋)。這表明,GCA 的推理邏輯是穩(wěn)健的,其性能將隨著感知模型的進步而持續(xù)提升。



      總結(jié)與意義

      GCA 提出了一種「語言定義約束,幾何執(zhí)行計算」的新范式。通過將模糊的空間查詢轉(zhuǎn)化為帶約束的數(shù)學(xué)問題,GCA 有效避免了 VLM 在有損語義空間中進行不可靠的空間想象。這不僅大幅提升了推理的準確性,也讓機器向擁有「幾何直覺」邁出了關(guān)鍵一步,回應(yīng)了攀登「空間智能」高峰的核心挑戰(zhàn)。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      朱棣死在榆木川,榆木川位于現(xiàn)在的哪里?說出來你可能不信

      朱棣死在榆木川,榆木川位于現(xiàn)在的哪里?說出來你可能不信

      小豫講故事
      2026-01-12 06:00:05
      壓歲錢發(fā)到幾歲最合適?內(nèi)行給出“4個”答案,你更贊成哪一個?

      壓歲錢發(fā)到幾歲最合適?內(nèi)行給出“4個”答案,你更贊成哪一個?

      美食格物
      2026-01-12 17:17:08
      洗碗機女主:制造爭議,吸引流量,開播,被封,主打一個完美

      洗碗機女主:制造爭議,吸引流量,開播,被封,主打一個完美

      TVB的四小花
      2026-01-11 06:02:24
      廣東一54歲男子痛風(fēng)去世,從不吃內(nèi)臟海鮮,醫(yī)生嘆息:無知害了他

      廣東一54歲男子痛風(fēng)去世,從不吃內(nèi)臟海鮮,醫(yī)生嘆息:無知害了他

      華庭講美食
      2026-01-03 11:13:38
      送走小波特后,籃網(wǎng)能否順勢交易得到賈?莫蘭特?

      送走小波特后,籃網(wǎng)能否順勢交易得到賈?莫蘭特?

      夜白侃球
      2026-01-12 20:23:32
      基輔市長克里琴科:基輔已經(jīng)癱瘓了,應(yīng)該離開基輔!

      基輔市長克里琴科:基輔已經(jīng)癱瘓了,應(yīng)該離開基輔!

      達文西看世界
      2026-01-11 09:44:04
      外交部:目前沒有得到有中國公民在伊朗傷亡的報告

      外交部:目前沒有得到有中國公民在伊朗傷亡的報告

      環(huán)球網(wǎng)資訊
      2026-01-12 16:04:42
      西安未來五年要搞大事!住這些區(qū)域的人有福了,看看有你家嗎?

      西安未來五年要搞大事!住這些區(qū)域的人有福了,看看有你家嗎?

      林子說事
      2026-01-12 15:27:41
      日方求當面交涉,吳大使反應(yīng)不出所料,難聽的話高市只能照單全收

      日方求當面交涉,吳大使反應(yīng)不出所料,難聽的話高市只能照單全收

      劍哥的思政課
      2026-01-12 19:23:48
      中國衛(wèi)星封板漲停,再創(chuàng)歷史新高

      中國衛(wèi)星封板漲停,再創(chuàng)歷史新高

      每日經(jīng)濟新聞
      2026-01-12 10:00:06
      朱雨玲奪冠后開心提及孫穎莎王曼昱,帶走28萬獎金

      朱雨玲奪冠后開心提及孫穎莎王曼昱,帶走28萬獎金

      孤酒老巷QA
      2026-01-12 13:31:41
      老公走了,我養(yǎng)大三個小叔子,今年我住院,他們的表現(xiàn)讓我覺得值

      老公走了,我養(yǎng)大三個小叔子,今年我住院,他們的表現(xiàn)讓我覺得值

      會一帆風(fēng)順的
      2026-01-12 14:11:52
      楊樂樂曬兒子正臉照,一家四口合照曝光,沐沐疑和妹妹睡上下鋪

      楊樂樂曬兒子正臉照,一家四口合照曝光,沐沐疑和妹妹睡上下鋪

      阿纂看事
      2026-01-12 09:24:30
      中國1-0爆冷澳洲,沒想到賽后王玉棟這么說 距離創(chuàng)造歷史僅差一步

      中國1-0爆冷澳洲,沒想到賽后王玉棟這么說 距離創(chuàng)造歷史僅差一步

      籃球看比賽
      2026-01-12 11:19:53
      對 “臺獨劊子手”陳舒怡,必須抓捕歸案以平民憤、告忠魂!

      對 “臺獨劊子手”陳舒怡,必須抓捕歸案以平民憤、告忠魂!

      達文西看世界
      2026-01-12 14:14:16
      印度要求智能手機制造商共享“源代碼”,蘋果和三星等表示擔(dān)憂!

      印度要求智能手機制造商共享“源代碼”,蘋果和三星等表示擔(dān)憂!

      AI商業(yè)論
      2026-01-11 19:27:35
      歷史性一幕發(fā)生:馬杜羅被抓后,世界分成3派,烏克蘭最令人氣憤

      歷史性一幕發(fā)生:馬杜羅被抓后,世界分成3派,烏克蘭最令人氣憤

      文史旺旺旺
      2026-01-11 15:47:04
      十大元帥中誰最佩服毛主席?幾乎到了言聽計從的地步!無怨無悔

      十大元帥中誰最佩服毛主席?幾乎到了言聽計從的地步!無怨無悔

      汪茫的創(chuàng)業(yè)之路
      2026-01-12 14:20:08
      18歲伊斯蘭少女直播拒戴頭巾,被冷血父親榮譽處決。

      18歲伊斯蘭少女直播拒戴頭巾,被冷血父親榮譽處決。

      環(huán)球趣聞分享
      2026-01-07 13:30:09
      楊瀚森防守效率力壓濃眉、約基奇,位居NBA中鋒第六

      楊瀚森防守效率力壓濃眉、約基奇,位居NBA中鋒第六

      大眼瞄世界
      2026-01-12 11:16:58
      2026-01-12 20:51:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12101文章數(shù) 142535關(guān)注度
      往期回顧 全部

      科技要聞

      面對SpaceX瘋狂“下餃子” 中國正面接招

      頭條要聞

      女子坐火車遇71歲初中班主任 被一口叫出名字感動落淚

      頭條要聞

      女子坐火車遇71歲初中班主任 被一口叫出名字感動落淚

      體育要聞

      聰明的球員,不是教練教出來的

      娛樂要聞

      蔡少芬結(jié)婚18周年,與張晉過二人世界

      財經(jīng)要聞

      倍輕松信披迷霧 實控人占用資金金額存疑

      汽車要聞

      增配不加價 北京現(xiàn)代 第五代 勝達2026款上市

      態(tài)度原創(chuàng)

      教育
      旅游
      手機
      親子
      家居

      教育要聞

      剛迎超長寒假!北京中小學(xué)又撞上近十年“最短學(xué)期”?!

      旅游要聞

      中國文旅看山西:省文旅廳和交通廳聯(lián)手規(guī)劃打造“萬里山河”景觀路

      手機要聞

      泡泡瑪特做手機?系與榮耀進行IP聯(lián)名合作 將于1月9日發(fā)布

      親子要聞

      寶媽必學(xué),傷害孩子的壞人不分性別!

      家居要聞

      包絡(luò)石木為生 野性舒適

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 人人爽亚洲aⅴ人人爽av人人片 | 鲁甸县| 熟女一区| 熟女人妇 成熟妇女系列视频| 亚洲欧美综合| 国产精品视频一区二区猎奇| 成人A级片| 东乌珠穆沁旗| 国产精品人妻一区二区高| 久久国产精品老人性| 真实国产乱子伦视频| 免费国精产品wnw2544| 人妻聚色窝窝人体WWW一区| 男男车车的车车网站w98免费| 少妇特殊按摩高潮惨叫无码| 日韩成人A级毛片| 一本色道久久综合亚洲精品不卡| 无限看片在线版免费视频大全| 多人乱p视频在线免费观看| 九九精品在线观| 久久精品国产亚洲夜色av网站| 女人高潮被爽到呻吟在线观看| 欲色天天网综合久久| 亚洲の无码国产の无码步美| 亚洲不卡视频| 免费视频成人片在线观看| 老太婆性杂交视频| 91成人在线播放| 色爱无码综合网| 美女黄网站人色视频免费国产 | 性人久久久久| 日韩一区在线中文字幕| 无码 人妻 在线 视频| 一本久道久久综合狠狠爱四虎影视| 国产人妖ts在线视频观看| 九九re线精品视频在线观看视频| 亚洲免费的福利片| 精品国产一区二区三区香蕉 | 国产精品手机视频一区二区| 亚洲天堂伊人久久a成人| 亚洲国产成人aⅴ毛片大全|