機器人前瞻(公眾號:robot_pro)
作者 許麗思
編輯 漠影
機器人前瞻12月25日報道,近日,Dexmal 原力靈機作者團隊提出一種全新的 VLA 框架 GeoVLA,它在保留現有視覺-語言模型(VLM)的預訓練能力的同時,采用了一種雙流架構(Dual-path Architecture)。
![]()
在具身智能的浪潮中,VLA 模型被視為通往通用機器人的快車道。然而,隨著研究深入到非結構化環境,現有 VLA 模型面臨著一個嚴重的維度缺陷:空間失明。
目前,大多數 VLA 模型(比如 OpenVLA、RT-2、Pi0、Pi05)單純依賴 2D RGB 圖像作為視覺輸入,導致模型眼中的世界“紙片化”,嚴重缺乏深度信息和幾何先驗;由此帶來的后果是:
- 深度感知缺失:面對需要精確距離判斷的任務,比如精準投籃、掛扣環,2D 模型往往“抓瞎”,無法準確預測 Z 軸的動作。
- 空間適應性差:一旦物體尺寸發生變化(Scale Variance)或相機視角發生偏移(Viewpoint Shift),便無法理解物體在空間中的本質位置,導致任務失敗。
而GeoVLA 在保留 VLM 強大的語義理解能力的同時,引入專用的點云嵌入網絡 PEN 和空間感知動作專家 3DAE,直接利用深度圖生成的點云數據,賦予機器人真正的三維幾何感知能力。
這一設計不僅在仿真環境中取得 SOTA,更在真實世界的魯棒性測試中,特別是在視角改變和物體尺度變化的極端條件下,展現出較強適應力。
- 論文名稱: GeoVLA: Empowering 3D Representation in Vision-Language-Action Models
- 論文鏈接: https://arxiv.org/html/2508.09071v2
- 項目主頁: https://linsun449.github.io/GeoVLA/
常見的做法試圖讓一個 VLM 既懂語義又懂幾何,這往往顧此失彼;GeoVLA 的核心邏輯是選擇把任務解耦:讓 VLM 負責“看懂是什么”,讓點云網絡負責“看清在哪里”。
![]()
▲GeoVLA 框架圖
GeoVLA 是一個全新的端到端框架,其流程包含三個關鍵組件的協同工作:
- 語義理解流:利用預訓練的 VLM(如 Prismatic-7B)處理 RGB 圖像和語言指令,提取融合后的視覺-語言特征。
- 幾何感知流:利用點云嵌入網絡 PEN 處理由深度圖轉換而來的點云,獨立提取高精度的 3D 幾何特征。
- 動作生成流:通過3D 增強動作專家 3DAE 融合上述兩種特征,生成精確的動作序列。
原始深度圖往往包含大量噪聲,且數據稀疏,直接作為輸入效果不佳。點云嵌入網絡 PEN 專為機器人操作設計,采用雙路徑架構來提取干凈且緊湊的幾何特征:
- 幾何特征提取:使用大核卷積和局部池化的輕量級 CNN,將非結構化的點云編碼為 Patch 級別的幾何 Token。
- 空間位置編碼:引入在大語言模型中常見的旋轉位置編碼 RoPE,它能極好地保留 3D 空間中的相對位置信息,這對于操作任務至關重要。
![]()
▲雙路徑點云嵌入網絡細節圖
空間錨點(Spatial Anchor)設計是 PEN 的一大亮點。作者團隊并沒有簡單地對所有點云特征進行平均池化,而是選擇對應于末端執行器坐標原點的 Token 作為“錨點”。這種以“手”為中心的視角設計,讓模型能夠顯式地建模“手”與“物體”之間的幾何關系,大幅提升操作精度。
三、3D 增強動作專家 3DAE
特征提取只是第一步,如何有效融合 RGB 的語義信息和點云的幾何信息,實現1+1>2的效果,是多模態研究當中的難點。作者團隊在動作生成端采用基于擴散 Transformer (DiTs) 的架構,并創新性地引入混合專家 (MoE) 機制。
- 靜態路由策略 (Static Routing):這是一個直覺且有效的策略。在訓練過程中,由于 VLM 分支是預訓練的,而點云分支是從頭開始學,如果使用常規的動態路由,模型會傾向于走捷徑,只依賴 VLM 分支,忽略點云信息。
- 強制解耦:作者團隊采用了靜態路由,隨機丟棄某種模態,逼迫模型必須學會獨立利用幾何信息來解決問題,從而確保了雙流信息的有效融合。
GeoVLA 在仿真和真機實驗中均展現出對傳統 2D VLA 模型的壓倒性優勢,證明顯式 3D 表征在復雜操作中的不可替代性。
仿真環境測試結果
![]()
▲LIBERO 評測結果
在 LIBERO 基準測試中,GeoVLA 超越所有任務套件。在最具挑戰性的 LIBERO-90(長程多任務)中,GeoVLA 達到 97.7% 的成功率,超越之前的 SOTA 方法 OpenVLA-OFT (95.3%) 和 CogACT (93.2%)。
![]()
▲ManiSkill2 評測結果
在物理仿真更為逼真的 ManiSkill2 中,GeoVLA 優勢更加明顯,平均成功率達到 77%,大幅領先 Dita (66%) 和 CogACT (69%);特別是在 PickClutterYCB 這種物體堆疊雜亂、遮擋嚴重的任務中,GeoVLA 憑借點云帶來的幾何理解,保持了極高的操作精度。
真機環境與魯棒性測試
![]()
▲真機實驗任務的變體展示
作者團隊使用 WidowX-250s 機械臂進行了廣泛的真機測試;實驗被分為“基礎任務”和“3D 感知任務”。在域內任務中,GeoVLA 在基礎任務上平均成功率 95.0%,在 3D 感知任務上為 77.5%,總體平均 86.3%,大幅領先 Pi0 (57.5%) 和 CogACT (76.3%)。特別是在 Put Basketball 和 Put Hairclip 等需要精確空間理解的任務中,GeoVLA 表現出更好的魯棒性。
![]()
▲真機任務評測結果
更令人印象深刻的是 GeoVLA 在分布外(OOD)場景下的魯棒性,這也是 GeoVLA 最核心的突破點:
![]()
▲左:投籃任務變體的評測結果;右:套娃任務變體的評測結果
- 投籃任務變體(高度變化):當籃筐高度被調整到訓練數據未覆蓋的最高位置 (H1) 時,依賴 2D 視覺的 CogACT 和 Pi0 徹底失效,成功率降至 20%;而 GeoVLA 憑借點云信息,依然保持 60% 的成功率。
- 套娃任務變體(尺寸變化):面對比訓練時大一號的套娃,2D 模型往往因為像素特征不匹配而無法識別;GeoVLA 則通過幾何形狀匹配,保持了 80% 的高成功率。
- 堆疊積木任務變體(視角變化):堆疊積木時,當相機視角偏移 45°,CogACT 成功率直接歸零,說明 2D 模型極度依賴特定視角的像素記憶;而 GeoVLA 依然穩健,保持 70% 的成功率,證明其學到了真正的 3D 空間結構。
- 胡蘿卜任務變體(移除海綿墊):訓練時使用的海綿墊在推理階段被移除,胡蘿卜位置被降低,導致大多數方法抓取胡蘿卜失敗;GeoVLA 則能更穩定且成功抓取,展現出更強的泛化能力。
GeoVLA通過引入點云嵌入網絡 PEN 和 3D 增強動作專家 3DAE,成功打破 VLA 模型在 3D 物理世界中的“感知壁壘”。
這項工作證明了,在端到端的機器人學習中,顯式引入 3D 幾何表征是提升模型泛化能力和魯棒性的關鍵。GeoVLA 不僅解決了傳統 VLA 模型“看得見但摸不準”的難題,更為未來具身智能邁向更復雜、更開放的非結構化環境提供了一種高效解決方案。
特別是其雙路徑并行設計和靜態路由策略,為多模態融合提供了一個極具參考價值的范式:既保留了大模型的通用語義知識,又補齊了物理世界的幾何常識。對于追求精確操控的具身智能領域而言,GeoVLA 可能是一個重要的里程碑,標志著 VLA 模型從“看圖說話”向“空間智能”的實質性跨越。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.