<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      機器人不抓瞎了!清華系創企提出全新VLA框架,讓模型看懂三維世界

      0
      分享至

      機器人前瞻(公眾號:robot_pro)
      作者 許麗思
      編輯 漠影

      機器人前瞻12月25日報道,近日,Dexmal 原力靈機作者團隊提出一種全新的 VLA 框架 GeoVLA,它在保留現有視覺-語言模型(VLM)的預訓練能力的同時,采用了一種雙流架構(Dual-path Architecture)。


      在具身智能的浪潮中,VLA 模型被視為通往通用機器人的快車道。然而,隨著研究深入到非結構化環境,現有 VLA 模型面臨著一個嚴重的維度缺陷:空間失明。

      目前,大多數 VLA 模型(比如 OpenVLA、RT-2、Pi0、Pi05)單純依賴 2D RGB 圖像作為視覺輸入,導致模型眼中的世界“紙片化”,嚴重缺乏深度信息和幾何先驗;由此帶來的后果是:

      • 深度感知缺失:面對需要精確距離判斷的任務,比如精準投籃、掛扣環,2D 模型往往“抓瞎”,無法準確預測 Z 軸的動作。
      • 空間適應性差:一旦物體尺寸發生變化(Scale Variance)或相機視角發生偏移(Viewpoint Shift),便無法理解物體在空間中的本質位置,導致任務失敗。

      而GeoVLA 在保留 VLM 強大的語義理解能力的同時,引入專用的點云嵌入網絡 PEN 和空間感知動作專家 3DAE,直接利用深度圖生成的點云數據,賦予機器人真正的三維幾何感知能力。

      這一設計不僅在仿真環境中取得 SOTA,更在真實世界的魯棒性測試中,特別是在視角改變和物體尺度變化的極端條件下,展現出較強適應力。

      • 論文名稱: GeoVLA: Empowering 3D Representation in Vision-Language-Action Models
      • 論文鏈接: https://arxiv.org/html/2508.09071v2
      • 項目主頁: https://linsun449.github.io/GeoVLA/
      一、將任務解耦,打造全新的端到端框架

      常見的做法試圖讓一個 VLM 既懂語義又懂幾何,這往往顧此失彼;GeoVLA 的核心邏輯是選擇把任務解耦:讓 VLM 負責“看懂是什么”,讓點云網絡負責“看清在哪里”。


      ▲GeoVLA 框架圖

      GeoVLA 是一個全新的端到端框架,其流程包含三個關鍵組件的協同工作:

      • 語義理解流:利用預訓練的 VLM(如 Prismatic-7B)處理 RGB 圖像和語言指令,提取融合后的視覺-語言特征。
      • 幾何感知流:利用點云嵌入網絡 PEN 處理由深度圖轉換而來的點云,獨立提取高精度的 3D 幾何特征。
      • 動作生成流:通過3D 增強動作專家 3DAE 融合上述兩種特征,生成精確的動作序列。
      二、點云嵌入網絡 PEN專為機器人操作設計

      原始深度圖往往包含大量噪聲,且數據稀疏,直接作為輸入效果不佳。點云嵌入網絡 PEN 專為機器人操作設計,采用雙路徑架構來提取干凈且緊湊的幾何特征:

      • 幾何特征提取:使用大核卷積和局部池化的輕量級 CNN,將非結構化的點云編碼為 Patch 級別的幾何 Token。
      • 空間位置編碼:引入在大語言模型中常見的旋轉位置編碼 RoPE,它能極好地保留 3D 空間中的相對位置信息,這對于操作任務至關重要。


      ▲雙路徑點云嵌入網絡細節圖

      空間錨點(Spatial Anchor)設計是 PEN 的一大亮點。作者團隊并沒有簡單地對所有點云特征進行平均池化,而是選擇對應于末端執行器坐標原點的 Token 作為“錨點”。這種以“手”為中心的視角設計,讓模型能夠顯式地建模“手”與“物體”之間的幾何關系,大幅提升操作精度。

      三、3D 增強動作專家 3DAE

      特征提取只是第一步,如何有效融合 RGB 的語義信息和點云的幾何信息,實現1+1>2的效果,是多模態研究當中的難點。作者團隊在動作生成端采用基于擴散 Transformer (DiTs) 的架構,并創新性地引入混合專家 (MoE) 機制。

      • 靜態路由策略 (Static Routing):這是一個直覺且有效的策略。在訓練過程中,由于 VLM 分支是預訓練的,而點云分支是從頭開始學,如果使用常規的動態路由,模型會傾向于走捷徑,只依賴 VLM 分支,忽略點云信息。
      • 強制解耦:作者團隊采用了靜態路由,隨機丟棄某種模態,逼迫模型必須學會獨立利用幾何信息來解決問題,從而確保了雙流信息的有效融合。
      四、實驗結果相對傳統 2D VLA 模型的壓倒性優勢

      GeoVLA 在仿真和真機實驗中均展現出對傳統 2D VLA 模型的壓倒性優勢,證明顯式 3D 表征在復雜操作中的不可替代性。

      仿真環境測試結果


      ▲LIBERO 評測結果

      在 LIBERO 基準測試中,GeoVLA 超越所有任務套件。在最具挑戰性的 LIBERO-90(長程多任務)中,GeoVLA 達到 97.7% 的成功率,超越之前的 SOTA 方法 OpenVLA-OFT (95.3%) 和 CogACT (93.2%)。


      ▲ManiSkill2 評測結果

      在物理仿真更為逼真的 ManiSkill2 中,GeoVLA 優勢更加明顯,平均成功率達到 77%,大幅領先 Dita (66%) 和 CogACT (69%);特別是在 PickClutterYCB 這種物體堆疊雜亂、遮擋嚴重的任務中,GeoVLA 憑借點云帶來的幾何理解,保持了極高的操作精度。

      真機環境與魯棒性測試


      ▲真機實驗任務的變體展示

      作者團隊使用 WidowX-250s 機械臂進行了廣泛的真機測試;實驗被分為“基礎任務”和“3D 感知任務”。在域內任務中,GeoVLA 在基礎任務上平均成功率 95.0%,在 3D 感知任務上為 77.5%,總體平均 86.3%,大幅領先 Pi0 (57.5%) 和 CogACT (76.3%)。特別是在 Put Basketball 和 Put Hairclip 等需要精確空間理解的任務中,GeoVLA 表現出更好的魯棒性。


      ▲真機任務評測結果

      更令人印象深刻的是 GeoVLA 在分布外(OOD)場景下的魯棒性,這也是 GeoVLA 最核心的突破點:


      ▲左:投籃任務變體的評測結果;右:套娃任務變體的評測結果

      • 投籃任務變體(高度變化):當籃筐高度被調整到訓練數據未覆蓋的最高位置 (H1) 時,依賴 2D 視覺的 CogACT 和 Pi0 徹底失效,成功率降至 20%;而 GeoVLA 憑借點云信息,依然保持 60% 的成功率。
      • 套娃任務變體(尺寸變化):面對比訓練時大一號的套娃,2D 模型往往因為像素特征不匹配而無法識別;GeoVLA 則通過幾何形狀匹配,保持了 80% 的高成功率。
      • 堆疊積木任務變體(視角變化):堆疊積木時,當相機視角偏移 45°,CogACT 成功率直接歸零,說明 2D 模型極度依賴特定視角的像素記憶;而 GeoVLA 依然穩健,保持 70% 的成功率,證明其學到了真正的 3D 空間結構。
      • 胡蘿卜任務變體(移除海綿墊):訓練時使用的海綿墊在推理階段被移除,胡蘿卜位置被降低,導致大多數方法抓取胡蘿卜失敗;GeoVLA 則能更穩定且成功抓取,展現出更強的泛化能力。
      五、結語: VLA 模型從“看圖說話”向“空間智能跨越

      GeoVLA通過引入點云嵌入網絡 PEN 和 3D 增強動作專家 3DAE,成功打破 VLA 模型在 3D 物理世界中的“感知壁壘”。

      這項工作證明了,在端到端的機器人學習中,顯式引入 3D 幾何表征是提升模型泛化能力和魯棒性的關鍵。GeoVLA 不僅解決了傳統 VLA 模型“看得見但摸不準”的難題,更為未來具身智能邁向更復雜、更開放的非結構化環境提供了一種高效解決方案。

      特別是其雙路徑并行設計和靜態路由策略,為多模態融合提供了一個極具參考價值的范式:既保留了大模型的通用語義知識,又補齊了物理世界的幾何常識。對于追求精確操控的具身智能領域而言,GeoVLA 可能是一個重要的里程碑,標志著 VLA 模型從“看圖說話”向“空間智能”的實質性跨越。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      這下子,特朗普算是明白,為什么前任都不敢動委內瑞拉了

      這下子,特朗普算是明白,為什么前任都不敢動委內瑞拉了

      諦聽骨語本尊
      2026-01-12 13:59:10
      問題到底出在哪里?為什么那么多人不信官方說法…

      問題到底出在哪里?為什么那么多人不信官方說法…

      慧翔百科
      2026-01-10 13:44:32
      丹麥鬧劇!丹麥女首相想拉中國下水,最后欲哭無淚!

      丹麥鬧劇!丹麥女首相想拉中國下水,最后欲哭無淚!

      達文西看世界
      2026-01-12 15:12:51
      岳云鵬稱今年將缺席央視春晚:能耐就這么些,寫不出更好的東西;去年被現場觀眾“貼臉開大”建議別上春晚

      岳云鵬稱今年將缺席央視春晚:能耐就這么些,寫不出更好的東西;去年被現場觀眾“貼臉開大”建議別上春晚

      觀威海
      2026-01-12 10:06:04
      省廳公開通報!三明這些人被立案調查

      省廳公開通報!三明這些人被立案調查

      最三明
      2026-01-12 11:59:12
      創業板指跌逾1% 寧德時代跌超4%

      創業板指跌逾1% 寧德時代跌超4%

      財聯社
      2026-01-12 10:05:18
      每天一個水煮蛋是“死亡催化劑”?提醒:想健康吃蛋,5個錯別犯

      每天一個水煮蛋是“死亡催化劑”?提醒:想健康吃蛋,5個錯別犯

      健康科普365
      2026-01-11 20:30:03
      85年鄧小平南下視察,詢問一旁的韓培信:江蘇趕上臺灣有沒有把握

      85年鄧小平南下視察,詢問一旁的韓培信:江蘇趕上臺灣有沒有把握

      雍親王府
      2026-01-12 15:20:03
      破案!能贏遼寧44分,杜鋒卻早早鳴金收兵原因找到,粵媒說出實情

      破案!能贏遼寧44分,杜鋒卻早早鳴金收兵原因找到,粵媒說出實情

      后仰大風車
      2026-01-12 09:10:12
      張水華:我最好說話!同事找我調休我都同意 辭職沒和她們打招呼

      張水華:我最好說話!同事找我調休我都同意 辭職沒和她們打招呼

      念洲
      2026-01-12 13:02:28
      有點像15年牛市了?A股17連陽,踏空資金進場,進入極致投機狀態

      有點像15年牛市了?A股17連陽,踏空資金進場,進入極致投機狀態

      看財經show
      2026-01-12 17:06:18
      再見歐文,真徹底不打了!!!

      再見歐文,真徹底不打了!!!

      體育新角度
      2026-01-12 16:21:14
      輸球又輸人!澳主帥吐槽國足用70年代打法,輸不起言論引爭議!

      輸球又輸人!澳主帥吐槽國足用70年代打法,輸不起言論引爭議!

      田先生籃球
      2026-01-11 22:39:31
      巴西歷史最佳陣容發布!內馬爾 小羅 卡卡 卡洛斯落選!大羅上榜

      巴西歷史最佳陣容發布!內馬爾 小羅 卡卡 卡洛斯落選!大羅上榜

      體壇八點半的那些事兒
      2026-01-11 21:10:44
      鬧大了!金華一工廠老板十多歲兒子對工人吆五喝六,終于集體走人

      鬧大了!金華一工廠老板十多歲兒子對工人吆五喝六,終于集體走人

      火山詩話
      2026-01-12 05:54:05
      給孩子發壓歲錢,記得:2數不發,3人不給,4事不做,開心過年,這可不是迷信

      給孩子發壓歲錢,記得:2數不發,3人不給,4事不做,開心過年,這可不是迷信

      美食格物
      2026-01-11 16:24:12
      真來了!特斯拉中國即將推出 Model 3 廉價版,售價低于 20 萬

      真來了!特斯拉中國即將推出 Model 3 廉價版,售價低于 20 萬

      XCiOS俱樂部
      2026-01-12 14:26:11
      分手14年,釋小龍何潔境遇天差地別,一個身家過億,一個養不起娃

      分手14年,釋小龍何潔境遇天差地別,一個身家過億,一個養不起娃

      查爾菲的筆記
      2026-01-09 22:17:44
      特朗普話音剛落,鄭麗文向全臺2300萬人保證,訪問大陸可全程公開

      特朗普話音剛落,鄭麗文向全臺2300萬人保證,訪問大陸可全程公開

      阿柒的訊
      2026-01-12 15:40:50
      特朗普聽取匯報,威脅最快下周打擊伊朗

      特朗普聽取匯報,威脅最快下周打擊伊朗

      山河路口
      2026-01-11 12:14:33
      2026-01-12 18:23:00
      機器人前瞻
      機器人前瞻
      專注于機器人報道的媒體
      300文章數 7關注度
      往期回顧 全部

      科技要聞

      面對SpaceX瘋狂“下餃子” 中國正面接招

      頭條要聞

      女子不會殺豬上千網友去幫忙 村干部:宰5頭豬吃流水席

      頭條要聞

      女子不會殺豬上千網友去幫忙 村干部:宰5頭豬吃流水席

      體育要聞

      聰明的球員,不是教練教出來的

      娛樂要聞

      閆學晶:脫離群眾太久 忘了自己的根

      財經要聞

      倍輕松信披迷霧 實控人占用資金金額存疑

      汽車要聞

      增配不加價 北京現代 第五代 勝達2026款上市

      態度原創

      藝術
      家居
      房產
      健康
      數碼

      藝術要聞

      畫完這組畫,他抑郁了,后來自殺了

      家居要聞

      包絡石木為生 野性舒適

      房產要聞

      重磅調規!417畝商改住+教育地塊!海口西海岸又要爆發!

      血常規3項異常,是身體警報!

      數碼要聞

      EPOMAKER預覽RT98鍵盤:小鍵盤模塊支持右置或左置

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 成人免费在线| 亚洲制服中文字幕一区二区| 欧美成人精品三级在线观看| 国产毛片A啊久久久久| 亚洲一卡二卡| 亚洲日韩欧美国产高清αv| 亚洲老熟女@TubeumTV| 国产日韩精品欧美2020区| 古蔺县| 成人国产精品一区二区网站公司| 亚洲情人网| 国产成人精品A视频| 中文字幕亚洲亚洲精品| 激情综合色五月丁香六月亚洲| 少妇无码av无码一区| 国产亚洲AV| 中文国产| 5月丁香,6月综合| 伊人久久大香线蕉综合色狠狠| 婷婷久久香蕉五月综合加勒比| 国产最新AV在线播放不卡| 国产人妖网站| 亚洲欧美日韩国产美色| 久久ww精品w免费人成| 91福利国产午夜亚洲精品| 男人天堂网址| 榕江县| 日韩精品中文字幕 一区| 国产精品ⅴ无码大片在线看| 中文字幕日韩精品亚洲一区 | 国产精品人成视频免| 国产XX00| 一道本AV免费不卡播放| 夜夜爽妓女8888888视频| 色婷婷av| 91瑟瑟| 欧美一区二区三区欧美日韩亚洲| 一区二区三区波多野结衣在线观看| 国产成人精品手机在线观看 | 黑人巨茎大战欧美白妇| 国产内射性高湖|