<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      SpatialActor通過解耦語義與幾何,為具身智能注入強魯棒空間基因

      0
      分享至



      機器人操作模型雖然在語義理解上取得巨大成功,但往往被困在 2D 圖像的「錯覺」中。現(xiàn)有的機器人操作模型主要依賴 2D 圖像作為輸入,這意味著它們?nèi)菀讈G失關(guān)鍵的深度信息和 3D 幾何結(jié)構(gòu)。

      具體而言,基于點云的方法受限于稀疏采樣,導(dǎo)致細粒度語義信息的丟失;基于圖像的方法通常將 RGB 和深度信息輸入到在 3D 輔助任務(wù)上訓(xùn)練的 2D 骨干網(wǎng)絡(luò)中,但它們糾纏在一起的語義和幾何特征對現(xiàn)實世界中固有的深度噪聲非常敏感,從而干擾了語義理解。



      圖 1:不同方法的對比

      針對這一痛點,Dexmal 原力靈機作者團隊提出 SpatialActor,該工作核心在于 「解耦」(Disentanglement):它不再將視覺信息混為一談,而是明確地將語義信息(這是什么?)與空間幾何信息(它在哪里?形狀如何?)分離開來,從而實現(xiàn)語義流與空間流的雙流解耦與后期融合。

      作者通過引入顯式的 3D 空間編碼器,并將其與強大的視覺語言模型結(jié)合,使機器人不僅能「讀懂」指令,更能「感知」三維空間。作者在包含 50 多個任務(wù)的多個仿真和真實世界場景中評估了 SpatialActor。它在 RLBench 上取得了 87.4% 的成績,達到 SOTA 水平;在不同噪聲條件下,性能提升了 13.9% 至 19.4%,展現(xiàn)出強大的魯棒性。目前該論文已被收錄為 AAAI 2026 Oral,并將于近期開源。



      • 論文名稱:SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation
      • 論文鏈接:https://arxiv.org/abs/2511.09555
      • 項目主頁:https://shihao1895.github.io/SpatialActor/

      方法與架構(gòu)

      作者認為,機器人操作本質(zhì)上需要兩種能力的協(xié)同:一是對任務(wù)目標的語義理解(由 VLM 提供),二是對環(huán)境幾何的精確把控(由 3D 表征提供)。SpatialActor 并沒有試圖訓(xùn)練一個全能的端到端網(wǎng)絡(luò),而是采用了一種「雙流解耦 - 融合」的架構(gòu)設(shè)計。

      整體架構(gòu)



      圖 2:SpatialActor 架構(gòu)概覽

      該架構(gòu)采用了獨立的視覺與深度編碼器。語義引導(dǎo)幾何模塊(SGM)通過門控融合機制,將來自預(yù)訓(xùn)練深度專家的魯棒但缺乏細粒度信息的幾何先驗與含噪但有逐像素細節(jié)的深度特征自適應(yīng)地結(jié)合,從而生成高層幾何表征。

      在空間 Transformer(SPT)中,低層空間線索被編碼為位置嵌入,用以驅(qū)動空間交互。最后,視圖級交互優(yōu)化了視圖內(nèi)的特征,而場景級交互則整合了跨視圖的跨模態(tài)信息,為后續(xù)的動作頭提供支持。

      語義引導(dǎo)幾何模塊(SGM)

      由于傳感器的局限性和環(huán)境干擾,現(xiàn)實世界的深度測量往往含有噪聲,而 RGB 圖像則能提供高信噪比的語義線索。大規(guī)模預(yù)訓(xùn)練深度估計模型學(xué)習(xí)到了平滑的 “語義到幾何” 映射,能夠提供魯棒且通用的幾何先驗。相比之下,原始深度特征雖然保留了細粒度的像素級細節(jié),但對噪聲高度敏感。

      為此,SGM 模塊通過一個凍結(jié)的大規(guī)模預(yù)訓(xùn)練深度估計專家模型從 RGB 輸入中提取魯棒但粗粒度的幾何先驗,同時利用深度編碼器從原始深度中提取細粒度但含噪的幾何特征。如圖 3 (a) 所示,SGM 模塊通過一個多尺度門控機制自適應(yīng)地融合這些特征,從而生成優(yōu)化后的幾何表征;該表征在保留細微細節(jié)的同時降低了噪聲,并與語義線索保持對齊。



      圖 3:語義引導(dǎo)幾何模塊和空間 Transformer

      空間 Transformer(SPT)

      如圖 3 (b) 所示,SPT 模塊旨在建立精確的 2D 至 3D 映射并融合多模態(tài)特征,是生成精準動作的關(guān)鍵。首先,模塊將視覺得到的空間特征與機器人本體感知信息(如關(guān)節(jié)狀態(tài))融合。利用相機內(nèi)外參矩陣和深度信息,模型將圖像像素坐標轉(zhuǎn)換為機器人基座坐標系下的三維坐標,并采用旋轉(zhuǎn)位置編碼技術(shù)將這些三維幾何信息嵌入特征中,賦予其低層的空間感知。

      在特征交互層面,SPT 依次執(zhí)行視圖級和場景級注意力機制:前者優(yōu)化單視圖內(nèi)部表征,后者聚合所有視圖與語言指令特征,實現(xiàn)跨模態(tài)的全局上下文融合。最終,解碼器通過預(yù)測熱力圖確定動作的三維平移位置,并基于該位置的局部特征回歸計算旋轉(zhuǎn)角度和夾爪開閉狀態(tài),完成端到端的動作生成。

      實驗結(jié)果

      為了全面評估 SpatialActor 的有效性,作者在仿真和真實世界環(huán)境中均開展了實驗,既比較其與當(dāng)前最先進方法的表現(xiàn),也考察其在噪聲干擾下的魯棒性,并進一步驗證其在真實機器人上的實際表現(xiàn)。

      仿真基準測試結(jié)果



      表 1:RLBench 仿真測試結(jié)果

      作者給出了 SpatialActor 在 18 個 RLBench 任務(wù)及其 249 種變體上的成功率。SpatialActor 取得了最佳的整體性能,超越了此前的 SOTA 模型 RVT-2 6.0%。值得注意的是,在諸如 Insert Peg(插銷釘)和 Sort Shape(形狀分類)等需要高空間精度的任務(wù)中,SpatialActor 的表現(xiàn)分別優(yōu)于 RVT-2 53.3% 和 38.3%。

      不同程度噪聲下的表現(xiàn)



      表 2:不同程度噪聲下的表現(xiàn)

      在噪聲實驗中,作者通過加入不同強度的高斯擾動模擬噪聲。結(jié)果表明,無論是輕度、中度還是重度噪聲,SpatialActor 的表現(xiàn)都始終明顯優(yōu)于 RVT-2,平均成功率分別提升 13.9%、16.9% 和 19.4%。在諸如 Insert Peg(插銷釘)這類需要高精度對位的任務(wù)中,這一差距更為突出,在三檔噪聲下分別高出 88.0%、78.6% 和 61.3%,展現(xiàn)出對噪聲干擾的強魯棒性。

      真機實驗結(jié)果



      圖 4:真機任務(wù)

      在真機實驗中,作者使用一臺配備 Intel RealSense D435i RGB-D 相機的 WidowX 單臂機器人;并采用 8 個不同的任務(wù),共計 15 種變體。



      表 6:真機結(jié)果

      真機實驗結(jié)果如表 6 所示,SpatialActor 的表現(xiàn)持續(xù)優(yōu)于 RVT-2,各任務(wù)平均提升約 20%,證明其在真實場景中的有效性。為了評估針對分布變化的魯棒性,作者在被操作物體、接收物體、光照和背景發(fā)生變化的情況下對 SpatialActor 進行了測試。在這些多樣且極具挑戰(zhàn)性的條件下,SpatialActor 始終保持了高水平表現(xiàn),有力證明了其在復(fù)雜真實世界場景中的強大魯棒性與泛化能力。

      結(jié)論

      在本文中,作者提出了 SpatialActor,這是一個用于機器人操作的魯棒空間表征框架,旨在解決精確空間理解、傳感器噪聲以及有效交互帶來的挑戰(zhàn)。SpatialActor 將語義信息與幾何信息進行了解耦,并將幾何分支劃分為高層和低層兩個組件:SGM 將語義引導(dǎo)的幾何先驗與原始深度特征自適應(yīng)融合,以構(gòu)建魯棒的高層幾何;而 SPT 則通過位置感知交互捕捉低層空間線索。

      在 50 多個仿真和真實世界任務(wù)上進行的廣泛實驗表明,SpatialActor 在多樣化的條件下均取得了更高的成功率和強大的魯棒性。這些結(jié)果凸顯了解耦的空間表征對于開發(fā)更加魯棒且具備泛化能力的機器人系統(tǒng)的重要性。

      附論

      機器人操作可以分解為兩個維度:空間感知與時序理解。前者關(guān)注如何將視覺與語言映射為精確的 6-DoF 位姿,實現(xiàn)對當(dāng)前場景的物理 Grounding;后者則需要基于當(dāng)前與過往的歷史狀態(tài),連續(xù)做出多個決策以完成長期目標。



      但是,真實世界的操作并非靜態(tài)的空間問題,而是貫穿時間的連續(xù)過程。機器人不僅要抓得準,還必須記得住之前的關(guān)鍵狀態(tài),才能在長程任務(wù)中真正抓得對。這使得記憶機制成為連接空間操作與長程決策的關(guān)鍵能力。

      受人類大腦「工作記憶」與「海馬體」記憶機制的啟發(fā),作者團隊還提出了 MemoryVLA,創(chuàng)新性地引入「感知 - 認知記憶」到 VLA,在決策時智能地從記憶庫中「回憶」相關(guān)歷史信息,實現(xiàn)時序感知的決策。更多信息可以參考:

      • 論文:https://arxiv.org/abs/2508.19236
      • 項目主頁:https://shihao1895.github.io/MemoryVLA
      • GitHub:https://github.com/shihao1895/MemoryVLA

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      特斯拉前兩天開始量產(chǎn)一輛不像車的車,為何全世界安靜了?

      特斯拉前兩天開始量產(chǎn)一輛不像車的車,為何全世界安靜了?

      沙雕小琳琳
      2026-02-20 15:14:36
      凱德米:美國已經(jīng)在為遏制俄羅斯付出代價,問題極其嚴重。

      凱德米:美國已經(jīng)在為遏制俄羅斯付出代價,問題極其嚴重。

      風(fēng)雨與陽光
      2026-02-21 16:39:43
      這才是真正的好老師!

      這才是真正的好老師!

      張曉磊
      2026-02-21 12:23:04
      廣東一男子留2年長發(fā)回家過年,引起長輩們圍觀都忘記催婚了

      廣東一男子留2年長發(fā)回家過年,引起長輩們圍觀都忘記催婚了

      九方魚論
      2026-02-21 08:45:47
      英國上將揭露,當(dāng)年“香港”回歸真相:誰敢抗衡中國解放軍?

      英國上將揭露,當(dāng)年“香港”回歸真相:誰敢抗衡中國解放軍?

      終于在眼淚中明白
      2026-02-07 08:36:49
      3999元!又一款 Ultra新品官宣:正式上市

      3999元!又一款 Ultra新品官宣:正式上市

      高科技愛好者
      2026-02-20 22:59:06
      開打!海上突傳巨大撞擊聲,兩艘美軍艦,撞了!美開火3人被打死

      開打!海上突傳巨大撞擊聲,兩艘美軍艦,撞了!美開火3人被打死

      趣生活
      2026-02-20 21:30:01
      48歲保潔阿姨睡在公司1個月,老板打開了監(jiān)控,第2天送給她20萬

      48歲保潔阿姨睡在公司1個月,老板打開了監(jiān)控,第2天送給她20萬

      秀秀情感課堂
      2025-12-12 14:20:05
      看了《鏢人》,才發(fā)現(xiàn)吳京最正確的決定,就是換掉女主選擇陳麗君

      看了《鏢人》,才發(fā)現(xiàn)吳京最正確的決定,就是換掉女主選擇陳麗君

      斷翼的鳥兒
      2026-02-20 23:15:57
      這7位央視主持至今未嫁,她們?nèi)巳硕际敲琅畲蟮哪挲g已到60歲

      這7位央視主持至今未嫁,她們?nèi)巳硕际敲琅畲蟮哪挲g已到60歲

      TVB的四小花
      2026-02-18 08:42:26
      從9億回升至15億,《鏢人》逆跌奪得亞軍,吳京開啟漫長回本之路

      從9億回升至15億,《鏢人》逆跌奪得亞軍,吳京開啟漫長回本之路

      電影票房預(yù)告片
      2026-02-20 22:51:47
      3年9100萬!騎士簽約神塔賺大了,哈登一來,他從藍領(lǐng)變成高級貨

      3年9100萬!騎士簽約神塔賺大了,哈登一來,他從藍領(lǐng)變成高級貨

      球盲姐
      2026-02-21 17:05:54
      果然沒讓中方失望!美對華發(fā)終極威脅,不到24小時,俄有動作了

      果然沒讓中方失望!美對華發(fā)終極威脅,不到24小時,俄有動作了

      愛吃醋的貓咪
      2026-02-21 16:09:33
      春節(jié)來新加坡旅游,被自己窮笑了:酒店一晚1.6萬、入境被罰6000

      春節(jié)來新加坡旅游,被自己窮笑了:酒店一晚1.6萬、入境被罰6000

      新加坡萬事通
      2026-02-17 18:29:48
      惜敗湖人!倫納德柯林斯傷情更新,馬瑟林+盧采訪中極度不滿判罰

      惜敗湖人!倫納德柯林斯傷情更新,馬瑟林+盧采訪中極度不滿判罰

      籃球資訊達人
      2026-02-21 15:39:12
      這次中日摩擦,為何不“抵制日貨”了?

      這次中日摩擦,為何不“抵制日貨”了?

      華山穹劍
      2026-02-20 20:35:29
      特朗普至今不敢打伊朗,是害怕中國漁翁得利?事實證明,恰恰相反

      特朗普至今不敢打伊朗,是害怕中國漁翁得利?事實證明,恰恰相反

      青橘罐頭
      2026-02-21 07:17:45
      冬奧會僅剩2天,中國最后奪金點分析,超日本登亞洲第一就在今天

      冬奧會僅剩2天,中國最后奪金點分析,超日本登亞洲第一就在今天

      侃球熊弟
      2026-02-21 13:14:01
      孩子越大,越要告訴他這五句人生真相:比成績更重要的,是活好這一生

      孩子越大,越要告訴他這五句人生真相:比成績更重要的,是活好這一生

      青蘋果sht
      2026-02-20 05:52:21
      俄烏打了三年,打窮了三個國家,富了三個國家,中國也在其中

      俄烏打了三年,打窮了三個國家,富了三個國家,中國也在其中

      青煙小先生
      2026-02-19 19:14:06
      2026-02-21 17:28:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12325文章數(shù) 142569關(guān)注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      在貝加爾湖遇難的3名中國游客身份已確認:系一家人

      頭條要聞

      在貝加爾湖遇難的3名中國游客身份已確認:系一家人

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關(guān)系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財經(jīng)要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔(dān)當(dāng)”來了 方程豹首款轎車路跑信息曝光

      態(tài)度原創(chuàng)

      教育
      家居
      數(shù)碼
      健康
      軍事航空

      教育要聞

      新春走基層 | 慢飛天使捏出 “年的形狀”

      家居要聞

      本真棲居 愛暖伴流年

      數(shù)碼要聞

      NVIDIA新卡皇RTX 5090 Ti再曝光:功耗直飆超700W!性能提升10%

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      軍事要聞

      硬核揭秘!福建艦“一馬當(dāng)先”底氣何在

      無障礙瀏覽 進入關(guān)懷版