引入幾何約束后，VLM跨越了「空間推理」的認(rèn)知鴻溝

2026-01-12 17:17:59　來源: 機器之心Pro

河北舉報

分享至

現(xiàn)有的視覺大模型普遍存在「語義-幾何鴻溝」（Semantic-to-Geometric Gap），不僅分不清東南西北，更難以處理精確的空間量化任務(wù)。例如問「你坐在沙發(fā)上時，餐桌在你的哪一側(cè)？」，VLM 常常答錯。

這種「語義?幾何鴻溝」源自于視覺大模型的語義空間無法承載高保真的幾何細(xì)節(jié)，導(dǎo)致其在空間推理時是在「憑空瞎猜」，這使得模型讀懂了畫面的語義，卻停留在「語言的世界」中，不具備現(xiàn)實世界賴以運行的幾何直覺，導(dǎo)致空間判斷漏洞百出。

論文標(biāo)題：Geometrically-Constrained Agent for Spatial Reasoning
論文鏈接：https://arxiv.org/pdf/2511.22659
作者團(tuán)隊：Zeren Chen, Xiaoya Lu, Zhijie Zheng, Pengrui Li, Lehan He, Yijin Zhou, Jing Shao, Bohan Zhuang, Lu Sheng
通訊單位：北京航空航天大學(xué)，上海人工智能實驗室
項目主頁：https://gca-spatial-reasoning.github.io
項目代碼：https://github.com/gca-spatial-reasoning/gca

針對這一痛點，北京航空航天大學(xué)與上海人工智能實驗室的研究團(tuán)隊創(chuàng)新提出了幾何約束智能體（Geometrically-Constrained Agent, GCA），開創(chuàng)了「先形式化約束，后確定性計算」的空間推理新范式。GCA 不依賴海量數(shù)據(jù)微調(diào)，而是通過構(gòu)建形式化任務(wù)約束，強制 VLM 從「模糊直覺」轉(zhuǎn)向「精確求解」，通過視覺工具調(diào)用和編寫計算代碼進(jìn)行參數(shù)化計算，為空間推理搭建了一座可驗證、確定性的幾何橋梁。

GCA 直接帶領(lǐng) Qwen、Gemini 等基座模型實現(xiàn)「能力躍遷」。在公認(rèn)高難度的 MMSI-Bench 測試中，GCA 將模型性能提升近 50%，擊敗現(xiàn)有 Training-based 及 Tool-integrated 方法，并在多個主流空間推理測試中確立了空間推理領(lǐng)域的新 SOTA。

核心挑戰(zhàn)：跨越「語義 - 幾何」的認(rèn)知鴻溝

視覺語言模型（VLM）在圖像描述與通用語義理解上表現(xiàn)卓越，然而，當(dāng)任務(wù)轉(zhuǎn)向需要高精度幾何計算的空間推理時 —— 例如判斷物體的精確朝向、測量距離或進(jìn)行視角變換 —— 其表現(xiàn)卻顯著下滑。

研究團(tuán)隊指出，這種能力斷層的根源在于「語義 - 幾何鴻溝」。具體表現(xiàn)為：

視覺 & 幾何信息的有損壓縮：VLM 將豐富的像素信息壓縮為抽象的語義特征，這一過程如同將一幅詳細(xì)地圖簡化為幾個地標(biāo)名稱，導(dǎo)致物體精確位置、朝向、尺度等高保真幾何細(xì)節(jié)大量丟失。
幾何想象的缺失：以「坐在沙發(fā)上」這一場景為例，VLM 僅能調(diào)用模糊的空間常識（知道人與沙發(fā)通常同向），卻無法在腦海中精確構(gòu)建出「從沙發(fā)視角看去」的三維場景。這種幾何想象力的匱乏，使其在面對復(fù)雜空間推理時力不從心。

? 核心方法：基于形式化約束的兩階段推理

1. 任務(wù)形式化 —— 從「模糊指令」到「精確規(guī)則」

VLM 首先扮演「語義分析師」的角色，利用其強大的語義理解能力，將模糊的自然語言指令轉(zhuǎn)化為明確的數(shù)學(xué)約束。這一步驟不涉及具體計算，而是確立規(guī)則：

基于物體的參考系 (Object-based Frame)：利用物體自身的坐標(biāo)系。例如指令「當(dāng)你在洗手時...」隱含了觀察者必須「面對洗手池」，因此參考系由洗手池的朝向決定。
基于相機的參考系 (Camera-based Frame)：即標(biāo)準(zhǔn)的視圖坐標(biāo)系。例如「從圖 1 的視角來看...」，此時參考系直接綁定為相機的基于方向的參考系 (Direction-based Frame)：由兩個物體的位置關(guān)系定義。例如「烤箱在水槽的北面」，此時「北」的方向由從水槽指向烤箱的向量嚴(yán)格定義。

2. 幾何計算 —— 在規(guī)則內(nèi)進(jìn)行「確定性求解」

智能工具調(diào)度與綁定：VLM 像指揮官一樣，調(diào)度 3D 重建等感知工具獲取數(shù)據(jù)，并能智能地將「最左邊的椅子」等模糊描述，精準(zhǔn)綁定到具體的幾何對象上，消除語義歧義。
感知與計算的無縫銜接：感知工具負(fù)責(zé)將視覺世界參數(shù)化為高保真 3D 表示，計算工具則負(fù)責(zé)執(zhí)行代碼、完成坐標(biāo)轉(zhuǎn)換，二者在統(tǒng)一框架下協(xié)同，實現(xiàn)從「看到」到「算準(zhǔn)」的閉環(huán)。
檢索增強的可靠計算：采用類似 RAG 的策略，VLM 從一個已驗證的幾何公式庫中檢索正確模型來生成代碼，從根本上杜絕「幻覺」，確保每項計算都基于可靠的物理原理。

實驗結(jié)果：全新的空間推理 SOTA

在 MMSI-Bench、MindCube-tiny、OmniSpatial 等多個主流空間推理基準(zhǔn)上，GCA 證明了其有效性，構(gòu)建了一個全新的空間智能 SOTA。

綜合性能提升

GCA 取得了 65.1% 的平均準(zhǔn)確率，顯著超越了現(xiàn)有基于訓(xùn)練的方法與工具集成的方法。特別是在極具挑戰(zhàn)性的多圖空間推理基準(zhǔn) MMSI-Bench 中，面對復(fù)雜的視角變換與相對方位推斷，現(xiàn)有主流模型往往只能徘徊在 25%~30% 左右的「隨機猜測」水平線。

而基于 Qwen3-VL-Thinking 構(gòu)建的 GCA，準(zhǔn)確率從 32.6% 躍升至 47.6%。這一數(shù)據(jù)證明，GCA 成功讓 VLM 擺脫了「蒙答案」的困境，向具備可靠的空間推理能力邁出了關(guān)鍵一步。

強大的通用性

GCA 并非特定模型的「專屬補丁」，而是一種無需訓(xùn)練（Training-free）的通用推理范式，可直接賦能各類基座模型。

實驗顯示，在搭載 GCA 架構(gòu)后，受測模型在 MMSI-Bench 上的性能平均實現(xiàn)了約 37% 的相對提升。其中，基于 Gemini-2.5-Pro 構(gòu)建的 GCA 表現(xiàn)尤為驚艷，其準(zhǔn)確率從 36.9% 飛躍至 55.0%，有效地激發(fā)了頂級模型的空間推理潛力。

通過系統(tǒng)的消融實驗與歸因分析，研究進(jìn)一步證實了 GCA 架構(gòu)的前瞻性：

可解釋的錯誤歸因：得益于 GCA 架構(gòu)的模塊化設(shè)計，研究團(tuán)隊能夠?qū)ν评礞溌愤M(jìn)行精確的錯誤歸因。分析顯示，VLM 在「任務(wù)形式化」階段的準(zhǔn)確率已高達(dá)～70%，當(dāng)前主要錯誤來源于下游感知工具（如 3D 重建失敗或遮擋）。這表明，GCA 的推理邏輯是穩(wěn)健的，其性能將隨著感知模型的進(jìn)步而持續(xù)提升。

總結(jié)與意義

GCA 提出了一種「語言定義約束，幾何執(zhí)行計算」的新范式。通過將模糊的空間查詢轉(zhuǎn)化為帶約束的數(shù)學(xué)問題，GCA 有效避免了 VLM 在有損語義空間中進(jìn)行不可靠的空間想象。這不僅大幅提升了推理的準(zhǔn)確性，也讓機器向擁有「幾何直覺」邁出了關(guān)鍵一步，回應(yīng)了攀登「空間智能」高峰的核心挑戰(zhàn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.