<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      具身導航觀行并進!S2E:強化學習助力導航基礎模型突破

      0
      分享至

      • 作者:Honglin He, Yukai Ma, Wayne Wu, Bolei Zhou

      • 單位:加利福尼亞大學洛杉磯分校

      • 論文標題:From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning

      • 論文鏈接:https://arxiv.org/pdf/2507.22028

      • 項目主頁:https://metadriverse.github.io/s2e/

      • 代碼鏈接:https://github.com/metadriverse/S2E

      主要貢獻
      • 提出 Seeing-to-Experiencing (S2E)學習框架,將離線視頻預訓練和模擬環境中的強化學習相結合,既保持了模型從大規模真實世界視頻中獲得的泛化能力,又通過強化學習增強了模型的交互性。

      • 引入 錨點引導分布匹配 (Anchor-Guided Distribution Matching,AGDM)策略用于離線預訓練,通過基于錨點的監督穩定學習并建模多樣化的運動模式。

      • 提出 殘差注意力模塊 (Residual-Attention Module,RAM)用于強化學習階段,在模擬環境中獲得反應性行為的同時,保留模型的預訓練知識。

      • 建立基于真實世界場景的光柵化三維高斯濺射重建的 NavBench-GS 綜合端到端評估基準,能夠系統評估導航基礎模型的泛化性和安全性。

      • 通過 大量實驗 表明,S2E框架能夠顯著提升模型性能,緩解僅使用離線數據擴展時的收益遞減問題,并且在真實世界的不同機器人平臺上實現了零樣本泛化。

      研究背景
      • 導航基礎模型在大規模網絡規模數據上進行訓練,能夠使智能體在多樣化環境中泛化,但僅基于離線數據訓練的模型在現實世界城市導航中面臨局限性,如缺乏對行為后果的推理能力和通過反事實理解進行適應的能力,難以應對動態環境中的障礙物和行人等交互性和安全性要求高的任務。

      • 以往的導航基礎模型研究主要依賴大規模網絡視頻和人類演示進行預訓練,但這些方法存在一些問題,如缺乏物理和因果關系的明確信息,導致模型在真實世界中的適應性和反應性有限。

      S2E 學習框架 框架概述

      S2E(Seeing-to-Experiencing)學習框架旨在通過結合離線視頻預訓練和模擬環境中的強化學習,訓練出既具有泛化能力又具備交互性的導航基礎模型。該框架的核心目標是學習一個視覺導航策略π,使機器人能夠從起點ps導航到目標點pd。具體來說,S2E框架包含兩個關鍵部分:

      • 離線預訓練 :通過錨點引導分布匹配(Anchor-Guided Distribution Matching,AGDM)策略對真實世界視頻數據進行預訓練,以學習復雜的多模態分布并穩定學習過程。

      • 強化學習后訓練 :通過殘差注意力模塊(Residual-Attention Module,RAM)在模擬環境中進行強化學習,以增強模型的交互性并保留預訓練知識。

      錨點引導分布匹配預訓練

      機器人導航軌跡具有多模態性,即在相同的觀察條件下,可能存在多個有效的動作。有效建模這種多模態性對于泛化策略至關重要。然而,常見的表示方法(如離散動作或單模態高斯分布)缺乏表達能力,而擴散模型雖然表達能力強,但過于靈活,難以控制,可能導致不安全的軌跡。



      • 方法介紹

        • 提出了一種錨點引導的高斯混合模型(GMM)來表示機器人動作。具體來說,通過在機器人的前進方向上均勻采樣生成多個錨點,每個錨點對應GMM中的一個高斯模式。

        • 這些錨點作為可解釋的高級意圖,模型通過學習這些錨點的分數來反映每個意圖點被選為引導模式的概率。通過這種方式,模型能夠在保持結構化的同時,生成多樣化且目標一致的行為。

      • 模型架構

        • 模型接收連續的RGB幀和目標位置作為上下文信息,并使用預定義的與具體體現無關的錨點作為查詢進行預測。首先,通過自注意力模塊整合上下文嵌入,生成鍵(K)和值(V)。同時,錨點特征fP作為查詢(Q)。

        • 隨后,RAM塊根據錨點查詢Q計算加權特征,并生成細化的錨點特征。最終,通過分類頭和回歸頭解碼錨點特征,預測分數和歸一化的軌跡以及速度尺度。

      • 訓練過程

        • 模型采用端到端的訓練方式,使用兩種訓練損失。第一種是負對數似然(NLL)損失,用于監督分類頭和軌跡頭。

        • 通過選擇與真實軌跡方向最一致的模式進行優化。第二種是L2回歸損失,用于優化速度尺度。

      殘差注意力強化學習

      如果直接對整個模型參數進行強化學習微調,可能會導致模型對模擬數據過度擬合,從而在真實世界數據上表現不佳。特別是對于視覺編碼器等對領域變化敏感的組件,這種分布偏移可能會顯著降低性能。



      • 方法介紹

        • RAM模塊通過復制預訓練的交叉注意力層,并在復制的層上進行微調,同時保持原始模塊凍結。

        • 這種設計通過在復制的模塊周圍添加兩個零初始化的線性層,確保在初始化時,添加的適應分支對原始模型輸出沒有影響,但在微調過程中可以平滑地進行適應。

      • 訓練過程

        • 使用PPO算法進行訓練,定義了綜合的獎勵函數,包括速度方向獎勵、位移懲罰、到達目標獎勵和碰撞懲罰。

        • 通過策略梯度調整RAM模塊的參數,使用PPO剪輯目標和熵正則化進行微調。

      實驗 通過強化學習提升模型性能
      • 研究問題 :驗證強化學習(RL)是否能在離線預訓練的基礎上進一步提升導航性能。

      • 模型變體

        • S2E-BC :僅使用離線預訓練數據的行為克隆模型。

        • S2E-PPO :從頭開始使用PPO進行強化學習訓練的模型。

        • S2E-SFT :在預訓練后使用監督微調(SFT)的模型。

        • S2E-Full :結合預訓練和強化學習微調的完整方法。

      • 數據集 :使用不同規模的離線數據進行訓練,評估模型在不同數據規模下的性能。

      • 實驗結果

        • 數據規模與性能 :S2E-BC在數據規模增加到一定程度后,性能提升有限(從100k樣本增加到200k樣本,成功率僅提高3%)。而S2E-PPO通過強化學習在模擬環境中學習交互性,成功率比預訓練模型提高了21%,且未使用更多離線數據。

        • SFT與RL對比 :在增加訓練成本的情況下,RL保持或提高了成功率,而SFT則出現嚴重的過擬合問題。這表明RL不僅樣本效率更高,而且在增加訓練成本時更具魯棒性。

      NavBench-GS 基準測試
      • 基準測試設計

        • 測試場景 :基于光柵化三維高斯濺射重建的真實世界場景,包含26個場景,每個場景包含4種任務:空環境、有隨機靜態障礙物的環境、有移動行人的環境、有障礙物和行人的環境。

        • 評估指標 :成功率(SR)、路線完成率(RC)和碰撞次數(CT)。

      • 基線方法

        • 圖像目標方法 :GNM、ViNT、NoMaD。

        • 點目標方法 :CityWalker、MBRA、ViNT*、NoMaD*(*表示使用點作為目標重新訓練的模型)。

      • 實驗結果

        • S2E-Full性能 :S2E-Full在所有測試場景中均優于基線方法。與S2E-BC相比,S2E-Full在障礙物場景中的成功率提高了21%,在行人場景中提高了3%,在障礙物-行人場景中提高了17%。這表明強化學習在增強策略的交互能力方面發揮了關鍵作用。

        • 與其他方法對比 :S2E-Full在成功率和碰撞避免方面均優于其他基線方法,證明了S2E框架在復雜環境中的有效性和魯棒性。

      真實世界評估
      • 實驗設置

        • 環境類型 :空環境和有靜態障礙物的環境。

        • 機器人平臺 :Unitree GO2四足機器人和COCO輪式機器人。

        • 測試路線 :共8條路線,每條路線重復3次。

      • 實驗結果


        • S2E-Full在真實世界中展現了優越的碰撞規避能力。在輪式機器人和四足機器人上,S2E-Full在成功率和碰撞避免指標上均取得了最高性能。

        • 具體來說,輪式機器人上S2E-Full的成功率為0.42,碰撞次數為0.70;四足機器人上S2E-Full的成功率為0.50,碰撞次數為0.75。

        • 這表明通過強化學習在模擬環境中獲得的交互能力能夠有效地遷移到真實世界中,實現零樣本泛化。

      消融研究 錨點引導分布匹配的有效性
      • 實驗設置

        • 對比方法 :ViNT*(單模態匹配)和S2E-BC(錨點引導分布匹配)。

        • 測試場景 :包含障礙物和行人的復雜環境。

      • 實驗結果

        • 性能對比 :S2E-BC在成功率上比ViNT*提高了33%,碰撞率降低。這表明錨點引導分布匹配能夠顯著提升模型在復雜環境中的性能,有效捕捉多模態分布。

      殘差注意力模塊的有效性
      • 實驗設置

        • 對比方法 :S2E-SFT(監督微調)、S2E-PPO(從頭開始的強化學習)、S2E-FullFT(全參數微調)和S2E-Full(使用RAM的強化學習)。

        • 測試場景 :NavBench-GS中的障礙物環境。

      • 實驗結果

        • 性能對比 :S2E-Full在成功率和碰撞次數上均優于其他方法。具體來說,S2E-Full的成功率為0.76,碰撞次數為0.56,而S2E-SFT的成功率為0.71,碰撞次數為0.77。這表明RAM在有限模塊適應的情況下,能夠有效地提升模型的交互能力,同時保持預訓練知識。

      結論與未來工作
      • 結論

        • S2E框架通過結合離線預訓練和強化學習,有效地提升了導航基礎模型在多樣化真實世界環境中的泛化能力和交互性,能夠在不同的機器人平臺上實現零樣本泛化,為機器人導航領域提供了一種新的、有效的學習方法。

      • 未來工作

        • 當前系統缺乏3D感知能力,導致即使S2E-full模型有時也會出現碰撞失敗的情況,未來可以考慮整合深度估計或占用預測任務來推斷3D結構線索。

        • 此外,還需要解決由于機器人機械結構導致的問題,如模擬與真實機器人平臺之間的差異所引起的sim-to-real差距,以及運動控制不準確導致的性能下降問題,可以通過實施更高保真度的模擬建模并結合廣泛的數據增強策略來有效緩解這些問題。

        • 在未來,還計劃將該框架擴展到其他機器人應用領域,例如移動操作等。

      文章來源:視覺語言導航。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      馬斯克:傳統燃油車將逐漸消亡

      馬斯克:傳統燃油車將逐漸消亡

      界面新聞
      2025-12-19 16:31:02
      瑞幸咖啡實控人黎輝:父親是原蘭州軍區副司令,妻子是知名主持人

      瑞幸咖啡實控人黎輝:父親是原蘭州軍區副司令,妻子是知名主持人

      小莜讀史
      2025-12-16 14:58:18
      正義的勝利!利物浦再添三名傷員,6場不敗卻遭遇三大難題

      正義的勝利!利物浦再添三名傷員,6場不敗卻遭遇三大難題

      銳評利物浦
      2025-12-21 12:44:08
      一天7場!張水華連續周日上班均未參賽 最近僅3小時車程 無緣8千

      一天7場!張水華連續周日上班均未參賽 最近僅3小時車程 無緣8千

      念洲
      2025-12-21 09:19:27
      一場晚宴結束,高市敲定策略:對中國可以緩緩,先對俄羅斯下手

      一場晚宴結束,高市敲定策略:對中國可以緩緩,先對俄羅斯下手

      呼呼歷史論
      2025-12-21 12:55:59
      泰王訪華實屬無奈?開口就是三大需求,中國不會輕易松口

      泰王訪華實屬無奈?開口就是三大需求,中國不會輕易松口

      古事尋蹤記
      2025-11-17 07:28:16
      斯洛特該動手了!利物浦巨星全場隱身,球迷怒噴:他配不上首發

      斯洛特該動手了!利物浦巨星全場隱身,球迷怒噴:他配不上首發

      瀾歸序
      2025-12-21 07:33:12
      1-2!意甲黑馬現形:4戰強隊全敗,尤文差國米4分,4大強隊爭冠

      1-2!意甲黑馬現形:4戰強隊全敗,尤文差國米4分,4大強隊爭冠

      體育知多少
      2025-12-21 09:41:32
      我國一小縣城水塘被抽干后,發現世界第九大奇跡!專家無法解釋?

      我國一小縣城水塘被抽干后,發現世界第九大奇跡!專家無法解釋?

      墨蘭史書
      2025-12-14 06:10:03
      《江南春》不在場:8800萬元,不是最可怕的數字

      《江南春》不在場:8800萬元,不是最可怕的數字

      呦呦鹿鳴
      2025-12-18 16:15:41
      短短1個月4人被禁賽!中國網協回應:堅決反對此行為 將進一步處罰

      短短1個月4人被禁賽!中國網協回應:堅決反對此行為 將進一步處罰

      風過鄉
      2025-12-21 10:54:28
      被謝賢養了12年,用青春換來兩千萬的coco,已經走上了另一條道路

      被謝賢養了12年,用青春換來兩千萬的coco,已經走上了另一條道路

      墨印齋
      2025-12-04 19:46:02
      補氣的西洋參,如何吃?吃多少?中科院告知科學補法!

      補氣的西洋參,如何吃?吃多少?中科院告知科學補法!

      健康科普365
      2025-12-20 08:55:11
      火箭找到控衛答案!本賽季3場砍下27+,烏度卡別把他用成風雪哥

      火箭找到控衛答案!本賽季3場砍下27+,烏度卡別把他用成風雪哥

      你的籃球頻道
      2025-12-21 09:26:33
      嫁給太監到底有多恐怖?宮女為何在“對食”后就會喪失生育能力?

      嫁給太監到底有多恐怖?宮女為何在“對食”后就會喪失生育能力?

      墨蘭史書
      2025-12-20 15:25:04
      誤診20天錯過治療!北京男子腸癌去世,臨終為兩個孩子剪指甲告別

      誤診20天錯過治療!北京男子腸癌去世,臨終為兩個孩子剪指甲告別

      劉哥談體育
      2025-12-21 01:11:23
      過分!張才仁大力擊打賀希寧,誰注意到,周琦2個動作太及時

      過分!張才仁大力擊打賀希寧,誰注意到,周琦2個動作太及時

      體育哲人
      2025-12-21 07:37:32
      楊冪代言,商場“無頭大衣”嚇人,網友:冪級恐懼犯了!

      楊冪代言,商場“無頭大衣”嚇人,網友:冪級恐懼犯了!

      品牌頭版
      2025-12-21 11:04:08
      格拉斯納:被對手通過定位球進四球,這樣的情況是無法接受的

      格拉斯納:被對手通過定位球進四球,這樣的情況是無法接受的

      懂球帝
      2025-12-21 06:57:09
      地主看兒子閑得無聊,花萬兩白銀給兒子買官,沒想到成就一代名臣

      地主看兒子閑得無聊,花萬兩白銀給兒子買官,沒想到成就一代名臣

      銘記歷史呀
      2025-12-20 19:21:15
      2025-12-21 14:16:49
      算法與數學之美 incentive-icons
      算法與數學之美
      分享知識,交流思想
      5273文章數 64595關注度
      往期回顧 全部

      科技要聞

      生態適配已超95% 鴻蒙下一關:十萬個應用

      頭條要聞

      母親被父親刺28刀死亡 11歲兒子因給父親開門深深自責

      頭條要聞

      母親被父親刺28刀死亡 11歲兒子因給父親開門深深自責

      體育要聞

      送快船西部墊底!鵜鶘大勝步行者獲4連勝

      娛樂要聞

      鹿晗關曉彤戀愛期間毫不避諱?

      財經要聞

      老房子“強制體檢”,政府出手了

      汽車要聞

      -30℃,標致508L&凡爾賽C5 X冰雪"大考"

      態度原創

      旅游
      親子
      手機
      公開課
      軍事航空

      旅游要聞

      南京玄武推出環湖冬暖主題活動,超50場精品活動帶你“花式過冬”

      親子要聞

      為什么說小男孩是地球上最難養的生物

      手機要聞

      11月銷量數據:蘋果第一,小米國產第一

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      澤連斯基:前線局勢愈發艱難

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 91NAV成人黄色| 日韩国产中文字幕精品| 江门市| 四虎影院176| 中文字幕无码不卡免费视频| 富锦市| www.黄| 亚洲日本va午夜在线影院| 乌克兰美女浓毛bbw| 普兰店市| 丰满午夜人妻无码AAAA| 久久精品国产99久久无毒不卡| 黑人巨茎大战白人美女| 内射91| 国产精品乱码一区二区三区| 五月av综合av国产av| 三级国产三级在线| 亚洲avav| 亚洲天堂在线播放| 日韩乱码人妻无码中文字幕| 人人妻人人插视频| 色综合久久88色综合天天| 伊人久久大香线蕉AV网| 亚洲综合一区国产精品| 18禁男女爽爽爽午夜网站免费| 国产中文| 永久免费看mv网站入口| 亚洲国产韩国欧美在线| 久无码久无码av无码| 国产色精品久久人妻| 国产av中文字幕| 野花社区日本免费图片| 亚洲AV无码久久精品日韩| 激情无码人妻又粗又大| 91无码国产成人精品| 亚洲精品国产第一页第二页_久久精品国产亚洲a片无码_国产精品乱码一区二区三 | 精品视频福利| 强行糟蹋人妻hd中文字幕| 狠狠色丁香婷婷综合| 龙海市| 亚洲天堂视频在线观看|