![]()
本文的共同第一作者為新加坡國立大學博士生陳浩楠,新加坡國立大學碩士生郭京翔。合作者為汪邦駿、張添睿、黃敘川、鄭博仁、侯懿文、鐵宸睿、鄧家俊。通訊作者為新加坡國立大學計算機學院助理教授邵林,研究方向為機器人和人工智能。
在具身智能領域,機器人操作的泛化能力一直是一個核心挑戰。當前,視覺 - 語言 - 動作(VLA)模型主要分為兩大范式:端到端模型與分層模型。端到端 VLA 模型(如 RT-2 [1], OpenVLA [2])嚴重依賴海量的 “指令 - 視覺 - 動作” 成對數據,獲取成本極高,導致其在面對新任務或新場景時零樣本泛化能力受限。
另一方面,分層 VLA 模型試圖通過引入視覺語言模型(VLM)作為高層規劃器來緩解數據依賴,但其生成的中間表示(如語言描述 [3]、關鍵點 [4] 或價值圖 [5])往往缺乏復雜操作所需的精確幾何細節,或者需要底層策略進行額外的動作數據訓練。
為了突破這一瓶頸,來自新加坡國立大學(NUS)的邵林團隊提出了一種全新的解耦式分層框架 ——Goal-VLA。該研究創新性地將圖像生成式 VLM 作為 “以物體為中心的世界模型”,在無需任何任務特定微調和成對動作數據的情況下,實現了強大的零樣本機器人操作能力。
目前,該論文已被機器人領域頂級會議 IEEE International Conference on Robotics & Automation(ICRA 2026)接收。
![]()
- 論文標題:Goal-VLA: Image-Generative VLMs as Object-Centric World Models Empowering Zero-shot Robot Manipulation
- 論文鏈接:https://arxiv.org/abs/2506.23919
- 項目主頁:https://nus-lins-lab.github.io/goalvlaweb/
Goal-VLA:物體目標狀態作為連接高低層策略的接口
Goal-VLA 的核心洞察是使用物體目標狀態表示來連接高層語義推理與底層動作控制。
與受限于特定機器人運動學的傳統智能體中心(Agent-centric)世界模型不同,Goal-VLA 的世界模型聚焦于圖像空間中的語義目標,即需要操作的物體的目標位姿。這使得系統可以將高層規劃與底層控制徹底解耦:高層 VLM 提供泛化性極強的視覺目標,專門的空間基準模塊將其轉化為明確的空間指導,最終由免訓練的底層策略完成物理執行。整個框架僅需用戶的自然語言指令和單視角 RGB-D 圖像即可運行,無需預先掃描地圖或已知物體網格。
![]()
Goal-VLA 的執行流程分為三個關鍵階段:
1. 目標狀態推理(Goal State Reasoning)
![]()
該模塊負責將用戶抽象的自然語言指令轉化為具體且合理的視覺目標。系統首先利用文本 VLM 豐富用戶的簡短指令,將簡短指令轉化為包含豐富細節的提示詞。 圖像生成 VLM(Gemini 2.5 Flash-image)據此生成候選目標圖像。為了解決生成圖像可能存在的物理或語義不合理性,研究團隊提出了一種迭代的 “合成 - 反思”(Reflection-through-Synthesis)機制。為了讓驗證模型能夠清晰地評估該圖像的物理可行性,系統使用 Grounded SAM [6] 從候選圖像中分割出目標物體,并將其作為 “虛擬目標” 半透明地疊加到初始場景圖像上。評估模型(Reflector VLM)對合成圖像進行審查。若生成的圖像不符合任務語義(例如目標物體的位置不可達或者錯誤),Reflector 會輸出包含糾正反饋的修改提示,指導生成器重新生成,直至目標圖像被驗證通過 或者達到最大迭代次數。
![]()
2. 空間基準計算(Spatial Grounding)
![]()
該模塊負責將 2D 視覺目標轉化為精確的 3D 空間變換。由于生成的目標圖像在實例級外觀上可能存在偏差,傳統的光流估計容易失效。為了解決這個問題,Goal-VLA 提取像素級語義特征,通過計算相似度來建立初始幀與目標幀之間的像素匹配。結合初始真實深度圖與目標預測深度圖(使用 Depth Anything V2 [7] 估計并經深度對齊校準),系統將 2D 像素提升為 3D 點云 ,并使用 Umeyama 算法 [8] 求解出最優的旋轉(Rotation)和平移(Translation)矩陣。
3. 底層策略(Low-level Policy)
![]()
底層策略將高層提供的物體目標位姿轉化為可執行動作。接觸模塊在物體點云表面采樣,并篩選出無碰撞的最優接觸位姿(例如抓取的姿態)。系統假設抓取后夾爪與物體的相對位姿保持不變,將空間基準模塊計算出的物體變換矩陣應用于夾爪,推導出最終的目標位姿。最后,運動規劃器(Motion Planning Module)生成從當前構型到目標位姿的無碰撞軌跡,完成任務執行。
實驗結果與分析
研究團隊在 RLBench [9] 仿真環境(8 個任務)和真實的 UFACTORY X-ARM 7 機械臂(4 個任務)上進行了廣泛的評估。所有評估均在嚴格的零樣本設定下進行。
仿真環境基準測試 (RLBench)
![]()
在 RLBench 的 8 個涵蓋抓取、放置、插拔等復雜技能的任務中(每個任務測試 100 次),Goal-VLA 展現了顯著的性能提升,實現了59.9% 的平均成功率。相比之下,基于關鍵點的分層模型 MOKA [4] 僅為 26.0%。而嚴重依賴帶有動作成對數據的端到端模型 OpenVLA [2] 和 Pi0 [10],在未經過微調的零樣本測試中幾乎完全失敗。
真實世界機械臂實驗
![]()
研究團隊使用 7-DOF UFACTORY X-ARM 7 機械臂測試了 4 個具有挑戰性的物理任務:番茄入鍋(測試包含關系的推理)、桌面清掃(測試工具使用和間接操作)、精確稱重(測試高精度放置)以及直立瓶子(測試姿態重定向)。
Goal-VLA 達到了60% 的平均成功率,遠超其他基線方法。這一結果證明了 Goal-VLA 生成顯式 3D 目標位姿的策略,能夠為真實世界中的復雜操作提供精確的空間指導。
仿真環境與真實實驗共同證明,Goal VLA 框架能夠實現跨物體、跨環境、跨任務和跨本體的零樣本執行能力。
消融實驗
![]()
研究團隊對高層推理模塊進行了消融分析。單獨增加輸入提示詞增強(Input Enhancement)帶來了 27.5% 的成功率提升。而完整的 “合成 - 反思” 循環機制,將模型的基礎成功率從 40.0% 躍升至 83.8%,當允許最大 3 次反思迭代時,成功率進一步攀升至 88.8%。這證明了視覺反饋和自我糾正在圖像生成過程中的必要性。
總結
Goal-VLA 為解決機器人操作泛化難題提供了一種具有高度啟發性的解耦范式。其核心貢獻在于:
- 引入圖像生成式 VLM 作為 “以物體為中心的世界模型”,生成目標物體狀態并將其作為高層語義推理與底層動作控制之間的橋梁。
- 通過 “合成 - 反思” 迭代機制,將生成的虛擬目標圖像疊加到當前觀測場景中進行視覺審查與修正,大幅提升了生成目標的物理可行性。
- 在完全不需要訓練和任務特定微調的情況下,Goal-VLA 在仿真與真實世界中,跨越不同的操作任務、環境、物體類別甚至機器人本體,均展現出了穩定的零樣本泛化能力。
參考文獻
[1] Zitkovich, Brianna, et al. "Rt-2: Vision-language-action models transfer web knowledge to robotic control." Conference on Robot Learning. PMLR, 2023.
[2] Kim, Moo Jin, et al. "Openvla: An open-source vision-language-action model." arXiv preprint arXiv:2406.09246 (2024).
[3] Ahn, Michael, et al. "Do as i can, not as i say: Grounding language in robotic affordances." arXiv preprint arXiv:2204.01691 (2022).
[4] Liu, Fangchen, et al. "Moka: Open-world robotic manipulation through mark-based visual prompting." arXiv preprint arXiv:2403.03174 (2024).
[5] Huang, Wenlong, et al. "Voxposer: Composable 3d value maps for robotic manipulation with language models." arXiv preprint arXiv:2307.05973 (2023).
[6] Ren, Tianhe, et al. "Grounded sam: Assembling open-world models for diverse visual tasks." arXiv preprint arXiv:2401.14159 (2024).
[7] Yang, Lihe, et al. "Depth anything v2." Advances in Neural Information Processing Systems 37 (2024): 21875-21911.
[8] Umeyama, Shinji. "Least-squares estimation of transformation parameters between two point patterns." IEEE Transactions on pattern analysis and machine intelligence 13.4 (2002): 376-380.
[9] James, Stephen, et al. "Rlbench: The robot learning benchmark & learning environment." IEEE Robotics and Automation Letters 5.2 (2020): 3019-3026.
[10] Black, Kevin, et al. "$\pi_0 $: A Vision-Language-Action Flow Model for General Robot Control." arXiv preprint arXiv:2410.24164 (2024).
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.