網易首頁 > 網易號 > 正文申請入駐

機器人不抓瞎了！清華系創企提出全新VLA框架，讓模型看懂三維世界

2025-12-25 19:00:17　來源: 機器人前瞻

北京舉報

分享至

機器人前瞻（公眾號：robot_pro）
作者許麗思
編輯漠影

機器人前瞻12月25日報道，近日，Dexmal 原力靈機作者團隊提出一種全新的 VLA 框架 GeoVLA，它在保留現有視覺-語言模型（VLM）的預訓練能力的同時，采用了一種雙流架構（Dual-path Architecture）。

在具身智能的浪潮中，VLA 模型被視為通往通用機器人的快車道。然而，隨著研究深入到非結構化環境，現有 VLA 模型面臨著一個嚴重的維度缺陷：空間失明。

目前，大多數 VLA 模型（比如 OpenVLA、RT-2、Pi0、Pi05）單純依賴 2D RGB 圖像作為視覺輸入，導致模型眼中的世界“紙片化”，嚴重缺乏深度信息和幾何先驗；由此帶來的后果是：

深度感知缺失：面對需要精確距離判斷的任務，比如精準投籃、掛扣環，2D 模型往往“抓瞎”，無法準確預測 Z 軸的動作。
空間適應性差：一旦物體尺寸發生變化（Scale Variance）或相機視角發生偏移（Viewpoint Shift），便無法理解物體在空間中的本質位置，導致任務失敗。

而GeoVLA 在保留 VLM 強大的語義理解能力的同時，引入專用的點云嵌入網絡 PEN 和空間感知動作專家 3DAE，直接利用深度圖生成的點云數據，賦予機器人真正的三維幾何感知能力。

這一設計不僅在仿真環境中取得 SOTA，更在真實世界的魯棒性測試中，特別是在視角改變和物體尺度變化的極端條件下，展現出較強適應力。

論文名稱： GeoVLA: Empowering 3D Representation in Vision-Language-Action Models
論文鏈接： https://arxiv.org/html/2508.09071v2
項目主頁： https://linsun449.github.io/GeoVLA/

一、將任務解耦，打造全新的端到端框架

常見的做法試圖讓一個 VLM 既懂語義又懂幾何，這往往顧此失彼；GeoVLA 的核心邏輯是選擇把任務解耦：讓 VLM 負責“看懂是什么”，讓點云網絡負責“看清在哪里”。

▲GeoVLA 框架圖

GeoVLA 是一個全新的端到端框架，其流程包含三個關鍵組件的協同工作：

語義理解流：利用預訓練的 VLM（如 Prismatic-7B）處理 RGB 圖像和語言指令，提取融合后的視覺-語言特征。
幾何感知流：利用點云嵌入網絡 PEN 處理由深度圖轉換而來的點云，獨立提取高精度的 3D 幾何特征。
動作生成流：通過3D 增強動作專家 3DAE 融合上述兩種特征，生成精確的動作序列。

二、點云嵌入網絡 PEN專為機器人操作設計

原始深度圖往往包含大量噪聲，且數據稀疏，直接作為輸入效果不佳。點云嵌入網絡 PEN 專為機器人操作設計，采用雙路徑架構來提取干凈且緊湊的幾何特征：

幾何特征提取：使用大核卷積和局部池化的輕量級 CNN，將非結構化的點云編碼為 Patch 級別的幾何 Token。
空間位置編碼：引入在大語言模型中常見的旋轉位置編碼 RoPE，它能極好地保留 3D 空間中的相對位置信息，這對于操作任務至關重要。

▲雙路徑點云嵌入網絡細節圖

空間錨點（Spatial Anchor）設計是 PEN 的一大亮點。作者團隊并沒有簡單地對所有點云特征進行平均池化，而是選擇對應于末端執行器坐標原點的 Token 作為“錨點”。這種以“手”為中心的視角設計，讓模型能夠顯式地建模“手”與“物體”之間的幾何關系，大幅提升操作精度。

三、3D 增強動作專家 3DAE

特征提取只是第一步，如何有效融合 RGB 的語義信息和點云的幾何信息，實現1+1＞2的效果，是多模態研究當中的難點。作者團隊在動作生成端采用基于擴散 Transformer (DiTs) 的架構，并創新性地引入混合專家 (MoE) 機制。

靜態路由策略 (Static Routing)：這是一個直覺且有效的策略。在訓練過程中，由于 VLM 分支是預訓練的，而點云分支是從頭開始學，如果使用常規的動態路由，模型會傾向于走捷徑，只依賴 VLM 分支，忽略點云信息。
強制解耦：作者團隊采用了靜態路由，隨機丟棄某種模態，逼迫模型必須學會獨立利用幾何信息來解決問題，從而確保了雙流信息的有效融合。

四、實驗結果相對傳統 2D VLA 模型的壓倒性優勢

GeoVLA 在仿真和真機實驗中均展現出對傳統 2D VLA 模型的壓倒性優勢，證明顯式 3D 表征在復雜操作中的不可替代性。

仿真環境測試結果

▲LIBERO 評測結果

在 LIBERO 基準測試中，GeoVLA 超越所有任務套件。在最具挑戰性的 LIBERO-90（長程多任務）中，GeoVLA 達到 97.7% 的成功率，超越之前的 SOTA 方法 OpenVLA-OFT (95.3%) 和 CogACT (93.2%)。

▲ManiSkill2 評測結果

在物理仿真更為逼真的 ManiSkill2 中，GeoVLA 優勢更加明顯，平均成功率達到 77%，大幅領先 Dita (66%) 和 CogACT (69%)；特別是在 PickClutterYCB 這種物體堆疊雜亂、遮擋嚴重的任務中，GeoVLA 憑借點云帶來的幾何理解，保持了極高的操作精度。

真機環境與魯棒性測試

▲真機實驗任務的變體展示

作者團隊使用 WidowX-250s 機械臂進行了廣泛的真機測試；實驗被分為“基礎任務”和“3D 感知任務”。在域內任務中，GeoVLA 在基礎任務上平均成功率 95.0%，在 3D 感知任務上為 77.5%，總體平均 86.3%，大幅領先 Pi0 (57.5%) 和 CogACT (76.3%)。特別是在 Put Basketball 和 Put Hairclip 等需要精確空間理解的任務中，GeoVLA 表現出更好的魯棒性。

▲真機任務評測結果

更令人印象深刻的是 GeoVLA 在分布外（OOD）場景下的魯棒性，這也是 GeoVLA 最核心的突破點：

▲左：投籃任務變體的評測結果；右：套娃任務變體的評測結果

投籃任務變體（高度變化）：當籃筐高度被調整到訓練數據未覆蓋的最高位置 (H1) 時，依賴 2D 視覺的 CogACT 和 Pi0 徹底失效，成功率降至 20%；而 GeoVLA 憑借點云信息，依然保持 60% 的成功率。
套娃任務變體（尺寸變化）：面對比訓練時大一號的套娃，2D 模型往往因為像素特征不匹配而無法識別；GeoVLA 則通過幾何形狀匹配，保持了 80% 的高成功率。
堆疊積木任務變體（視角變化）：堆疊積木時，當相機視角偏移 45°，CogACT 成功率直接歸零，說明 2D 模型極度依賴特定視角的像素記憶；而 GeoVLA 依然穩健，保持 70% 的成功率，證明其學到了真正的 3D 空間結構。
胡蘿卜任務變體（移除海綿墊）：訓練時使用的海綿墊在推理階段被移除，胡蘿卜位置被降低，導致大多數方法抓取胡蘿卜失敗；GeoVLA 則能更穩定且成功抓取，展現出更強的泛化能力。

五、結語： VLA 模型從“看圖說話”向“空間智能跨越

GeoVLA通過引入點云嵌入網絡 PEN 和 3D 增強動作專家 3DAE，成功打破 VLA 模型在 3D 物理世界中的“感知壁壘”。

這項工作證明了，在端到端的機器人學習中，顯式引入 3D 幾何表征是提升模型泛化能力和魯棒性的關鍵。GeoVLA 不僅解決了傳統 VLA 模型“看得見但摸不準”的難題，更為未來具身智能邁向更復雜、更開放的非結構化環境提供了一種高效解決方案。

特別是其雙路徑并行設計和靜態路由策略，為多模態融合提供了一個極具參考價值的范式：既保留了大模型的通用語義知識，又補齊了物理世界的幾何常識。對于追求精確操控的具身智能領域而言，GeoVLA 可能是一個重要的里程碑，標志著 VLA 模型從“看圖說話”向“空間智能”的實質性跨越。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.