<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      NUS邵林團隊發布Goal-VLA:零樣本機器人操作新突破!

      0
      分享至



      本文的共同第一作者為新加坡國立大學博士生陳浩楠,新加坡國立大學碩士生郭京翔。合作者為汪邦駿、張添睿、黃敘川、鄭博仁、侯懿文、鐵宸睿、鄧家俊。通訊作者為新加坡國立大學計算機學院助理教授邵林,研究方向為機器人和人工智能。

      在具身智能領域,機器人操作的泛化能力一直是一個核心挑戰。當前,視覺 - 語言 - 動作(VLA)模型主要分為兩大范式:端到端模型與分層模型。端到端 VLA 模型(如 RT-2 [1], OpenVLA [2])嚴重依賴海量的 “指令 - 視覺 - 動作” 成對數據,獲取成本極高,導致其在面對新任務或新場景時零樣本泛化能力受限。

      另一方面,分層 VLA 模型試圖通過引入視覺語言模型(VLM)作為高層規劃器來緩解數據依賴,但其生成的中間表示(如語言描述 [3]、關鍵點 [4] 或價值圖 [5])往往缺乏復雜操作所需的精確幾何細節,或者需要底層策略進行額外的動作數據訓練。

      為了突破這一瓶頸,來自新加坡國立大學(NUS)的邵林團隊提出了一種全新的解耦式分層框架 ——Goal-VLA。該研究創新性地將圖像生成式 VLM 作為 “以物體為中心的世界模型”,在無需任何任務特定微調和成對動作數據的情況下,實現了強大的零樣本機器人操作能力。

      目前,該論文已被機器人領域頂級會議 IEEE International Conference on Robotics & Automation(ICRA 2026)接收。



      • 論文標題:Goal-VLA: Image-Generative VLMs as Object-Centric World Models Empowering Zero-shot Robot Manipulation
      • 論文鏈接:https://arxiv.org/abs/2506.23919
      • 項目主頁:https://nus-lins-lab.github.io/goalvlaweb/

      Goal-VLA:物體目標狀態作為連接高低層策略的接口

      Goal-VLA 的核心洞察是使用物體目標狀態表示來連接高層語義推理與底層動作控制。

      與受限于特定機器人運動學的傳統智能體中心(Agent-centric)世界模型不同,Goal-VLA 的世界模型聚焦于圖像空間中的語義目標,即需要操作的物體的目標位姿。這使得系統可以將高層規劃與底層控制徹底解耦:高層 VLM 提供泛化性極強的視覺目標,專門的空間基準模塊將其轉化為明確的空間指導,最終由免訓練的底層策略完成物理執行。整個框架僅需用戶的自然語言指令和單視角 RGB-D 圖像即可運行,無需預先掃描地圖或已知物體網格。



      Goal-VLA 的執行流程分為三個關鍵階段:

      1. 目標狀態推理(Goal State Reasoning)



      該模塊負責將用戶抽象的自然語言指令轉化為具體且合理的視覺目標。系統首先利用文本 VLM 豐富用戶的簡短指令,將簡短指令轉化為包含豐富細節的提示詞。 圖像生成 VLM(Gemini 2.5 Flash-image)據此生成候選目標圖像。為了解決生成圖像可能存在的物理或語義不合理性,研究團隊提出了一種迭代的 “合成 - 反思”(Reflection-through-Synthesis)機制。為了讓驗證模型能夠清晰地評估該圖像的物理可行性,系統使用 Grounded SAM [6] 從候選圖像中分割出目標物體,并將其作為 “虛擬目標” 半透明地疊加到初始場景圖像上。評估模型(Reflector VLM)對合成圖像進行審查。若生成的圖像不符合任務語義(例如目標物體的位置不可達或者錯誤),Reflector 會輸出包含糾正反饋的修改提示,指導生成器重新生成,直至目標圖像被驗證通過 或者達到最大迭代次數。



      2. 空間基準計算(Spatial Grounding)



      該模塊負責將 2D 視覺目標轉化為精確的 3D 空間變換。由于生成的目標圖像在實例級外觀上可能存在偏差,傳統的光流估計容易失效。為了解決這個問題,Goal-VLA 提取像素級語義特征,通過計算相似度來建立初始幀與目標幀之間的像素匹配。結合初始真實深度圖與目標預測深度圖(使用 Depth Anything V2 [7] 估計并經深度對齊校準),系統將 2D 像素提升為 3D 點云 ,并使用 Umeyama 算法 [8] 求解出最優的旋轉(Rotation)和平移(Translation)矩陣。

      3. 底層策略(Low-level Policy)



      底層策略將高層提供的物體目標位姿轉化為可執行動作。接觸模塊在物體點云表面采樣,并篩選出無碰撞的最優接觸位姿(例如抓取的姿態)。系統假設抓取后夾爪與物體的相對位姿保持不變,將空間基準模塊計算出的物體變換矩陣應用于夾爪,推導出最終的目標位姿。最后,運動規劃器(Motion Planning Module)生成從當前構型到目標位姿的無碰撞軌跡,完成任務執行。

      實驗結果與分析

      研究團隊在 RLBench [9] 仿真環境(8 個任務)和真實的 UFACTORY X-ARM 7 機械臂(4 個任務)上進行了廣泛的評估。所有評估均在嚴格的零樣本設定下進行。

      仿真環境基準測試 (RLBench)



      在 RLBench 的 8 個涵蓋抓取、放置、插拔等復雜技能的任務中(每個任務測試 100 次),Goal-VLA 展現了顯著的性能提升,實現了59.9% 的平均成功率。相比之下,基于關鍵點的分層模型 MOKA [4] 僅為 26.0%。而嚴重依賴帶有動作成對數據的端到端模型 OpenVLA [2] 和 Pi0 [10],在未經過微調的零樣本測試中幾乎完全失敗。

      真實世界機械臂實驗



      研究團隊使用 7-DOF UFACTORY X-ARM 7 機械臂測試了 4 個具有挑戰性的物理任務:番茄入鍋(測試包含關系的推理)、桌面清掃(測試工具使用和間接操作)、精確稱重(測試高精度放置)以及直立瓶子(測試姿態重定向)。

      Goal-VLA 達到了60% 的平均成功率,遠超其他基線方法。這一結果證明了 Goal-VLA 生成顯式 3D 目標位姿的策略,能夠為真實世界中的復雜操作提供精確的空間指導。

      仿真環境與真實實驗共同證明,Goal VLA 框架能夠實現跨物體、跨環境、跨任務和跨本體的零樣本執行能力。

      消融實驗



      研究團隊對高層推理模塊進行了消融分析。單獨增加輸入提示詞增強(Input Enhancement)帶來了 27.5% 的成功率提升。而完整的 “合成 - 反思” 循環機制,將模型的基礎成功率從 40.0% 躍升至 83.8%,當允許最大 3 次反思迭代時,成功率進一步攀升至 88.8%。這證明了視覺反饋和自我糾正在圖像生成過程中的必要性。

      總結

      Goal-VLA 為解決機器人操作泛化難題提供了一種具有高度啟發性的解耦范式。其核心貢獻在于:

      • 引入圖像生成式 VLM 作為 “以物體為中心的世界模型”,生成目標物體狀態并將其作為高層語義推理與底層動作控制之間的橋梁。
      • 通過 “合成 - 反思” 迭代機制,將生成的虛擬目標圖像疊加到當前觀測場景中進行視覺審查與修正,大幅提升了生成目標的物理可行性。
      • 在完全不需要訓練和任務特定微調的情況下,Goal-VLA 在仿真與真實世界中,跨越不同的操作任務、環境、物體類別甚至機器人本體,均展現出了穩定的零樣本泛化能力。

      參考文獻

      [1] Zitkovich, Brianna, et al. "Rt-2: Vision-language-action models transfer web knowledge to robotic control." Conference on Robot Learning. PMLR, 2023.

      [2] Kim, Moo Jin, et al. "Openvla: An open-source vision-language-action model." arXiv preprint arXiv:2406.09246 (2024).

      [3] Ahn, Michael, et al. "Do as i can, not as i say: Grounding language in robotic affordances." arXiv preprint arXiv:2204.01691 (2022).

      [4] Liu, Fangchen, et al. "Moka: Open-world robotic manipulation through mark-based visual prompting." arXiv preprint arXiv:2403.03174 (2024).

      [5] Huang, Wenlong, et al. "Voxposer: Composable 3d value maps for robotic manipulation with language models." arXiv preprint arXiv:2307.05973 (2023).

      [6] Ren, Tianhe, et al. "Grounded sam: Assembling open-world models for diverse visual tasks." arXiv preprint arXiv:2401.14159 (2024).

      [7] Yang, Lihe, et al. "Depth anything v2." Advances in Neural Information Processing Systems 37 (2024): 21875-21911.

      [8] Umeyama, Shinji. "Least-squares estimation of transformation parameters between two point patterns." IEEE Transactions on pattern analysis and machine intelligence 13.4 (2002): 376-380.

      [9] James, Stephen, et al. "Rlbench: The robot learning benchmark & learning environment." IEEE Robotics and Automation Letters 5.2 (2020): 3019-3026.

      [10] Black, Kevin, et al. "$\pi_0 $: A Vision-Language-Action Flow Model for General Robot Control." arXiv preprint arXiv:2410.24164 (2024).

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      2025-2026賽季WCBA季后賽半決賽首戰 四川蜀道遠達女籃一分險勝江蘇南鋼女籃

      2025-2026賽季WCBA季后賽半決賽首戰 四川蜀道遠達女籃一分險勝江蘇南鋼女籃

      封面新聞
      2026-04-07 20:03:03
      7名志愿軍彈盡糧絕,撿到美軍留下的重機槍和彈藥,創造一個奇跡

      7名志愿軍彈盡糧絕,撿到美軍留下的重機槍和彈藥,創造一個奇跡

      新一說史
      2026-04-06 18:34:33
      得分能力其實并不差!掘金真應該考慮給側翼新星多些表現機會?

      得分能力其實并不差!掘金真應該考慮給側翼新星多些表現機會?

      稻谷與小麥
      2026-04-07 22:01:45
      美國安插在中國多年的間諜頭子,居然是人人都想送錦旗的大善人。

      美國安插在中國多年的間諜頭子,居然是人人都想送錦旗的大善人。

      阿七說史
      2026-03-26 15:52:30
      主持人:皇馬受到VAR不公正對待,他們奪走了皇馬的西甲冠軍

      主持人:皇馬受到VAR不公正對待,他們奪走了皇馬的西甲冠軍

      懂球帝
      2026-04-07 21:38:11
      中國不記隔夜仇!巴拿馬接到通知,美國終于下場,巴政府自食惡果

      中國不記隔夜仇!巴拿馬接到通知,美國終于下場,巴政府自食惡果

      影孖看世界
      2026-04-06 14:09:23
      霍啟剛帶全家游廣西,69歲郭媽媽與外甥女玩漂流,郭晶晶為其護航

      霍啟剛帶全家游廣西,69歲郭媽媽與外甥女玩漂流,郭晶晶為其護航

      潮鹿逐夢
      2026-04-07 14:43:41
      南京一媽媽輔導孩子作業確診胃反流,醫生提醒:不是胃太脆弱,是“氣”真的會反流

      南京一媽媽輔導孩子作業確診胃反流,醫生提醒:不是胃太脆弱,是“氣”真的會反流

      荷蘭豆愛健康
      2026-04-07 18:38:58
      孫儷的“上海小院”火了,院里種菜曬衣服養狗,滿滿都是煙火氣

      孫儷的“上海小院”火了,院里種菜曬衣服養狗,滿滿都是煙火氣

      趣文說娛
      2026-04-06 21:37:13
      拉姆塞宣布退役

      拉姆塞宣布退役

      綠茵情報局
      2026-04-07 18:46:34
      伊朗革命衛隊稱以色列海法已被“全面打擊”

      伊朗革命衛隊稱以色列海法已被“全面打擊”

      財聯社
      2026-04-07 09:47:18
      又一位女籃核心留洋!正式官宣,加盟澳洲,未來可期,宮魯鳴如愿

      又一位女籃核心留洋!正式官宣,加盟澳洲,未來可期,宮魯鳴如愿

      萌蘭聊個球
      2026-04-07 17:35:35
      德轉列中后衛身價前10:薩利巴9000萬歐第1,庫巴西8000萬第2

      德轉列中后衛身價前10:薩利巴9000萬歐第1,庫巴西8000萬第2

      懂球帝
      2026-04-07 10:28:06
      新空腹血糖標準已調整,不再6.1mmol/L,糖前期者,早知早管控

      新空腹血糖標準已調整,不再6.1mmol/L,糖前期者,早知早管控

      觀星賞月
      2026-04-07 16:49:02
      邱彪有麻煩了!剩7場比賽,對手全是狠角色,媒體人:能贏3場算賺

      邱彪有麻煩了!剩7場比賽,對手全是狠角色,媒體人:能贏3場算賺

      金山話體育
      2026-04-07 09:54:48
      一空姐機上被打,航司霸氣出面:打我家空姐,拉入黑名單

      一空姐機上被打,航司霸氣出面:打我家空姐,拉入黑名單

      中國民航人
      2026-04-06 18:10:42
      特朗普再次點名北約、澳大利亞、日本、韓國:都不幫忙

      特朗普再次點名北約、澳大利亞、日本、韓國:都不幫忙

      環球網資訊
      2026-04-07 08:32:07
      特朗普自曝威脅退出北約真相:“想要格陵蘭島 但他們不給 那就說‘拜拜’”

      特朗普自曝威脅退出北約真相:“想要格陵蘭島 但他們不給 那就說‘拜拜’”

      每日經濟新聞
      2026-04-07 15:07:13
      向太太敢說了!向華強今年已經78了,但是她和向華強還有X生活!

      向太太敢說了!向華強今年已經78了,但是她和向華強還有X生活!

      心靜物娛
      2025-12-24 11:02:28
      佟大為一家3口清明節游三清山,關悅素顏出鏡,10歲兒子黑又帥

      佟大為一家3口清明節游三清山,關悅素顏出鏡,10歲兒子黑又帥

      椰黃娛樂
      2026-04-07 10:58:05
      2026-04-07 22:27:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12701文章數 142616關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      臺灣一些人被指準備"潤" 賴清德曾稱兒子在美"學功夫"

      頭條要聞

      臺灣一些人被指準備"潤" 賴清德曾稱兒子在美"學功夫"

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產

      財經要聞

      10萬億財政轉移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態體驗

      態度原創

      家居
      游戲
      藝術
      數碼
      房產

      家居要聞

      雅致愜意 感知生活之美

      模組救場還是官方重做?GTA4重制版引發玩家激烈爭論

      藝術要聞

      美麗風光看不盡

      數碼要聞

      1999元就能買Mini LED電視 海信Vidda小鋼炮S Mini開售

      房產要聞

      重磅!三亞擬出安居房新政!

      無障礙瀏覽 進入關懷版