<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      北大多視圖VLA模型賦能視覺具身導航!MM-Nav:多專家學習助力視覺導航穩健前行

      0
      分享至

      文章來源:視覺語言導航。

      • 作者:Tianyu Xu , Jiawei Chen , Jiazhao Zhang , Wenyao Zhang , Zekun Qi , Minghan Li , Zhizheng Zhang , He Wang

      • 單位: 北京大學, Galbot, 上海交通大學, 清華大學, 北京人工智能研究院

      • 論文標題:MM-Nav: Multi-View VLA Model for Robust Visual Navigation via Multi-Expert Learning

      • 論文鏈接:https://arxiv.org/pdf/2510.03142v1

      • 項目主頁:https://pku-epic.github.io/MM-Nav-Web/

      主要貢獻
      • 提出基于多視圖的視覺-語言-動作模型 MM-Nav ,能夠從多個強化學習(RL)專家那里學習不同的導航能力,并通過多專家學習實現魯棒的視覺導航。

      • 設計了 包含兩個階段的訓練過程 :首先利用從RL專家那里收集的大規模離線數據集對VLA模型進行初始微調;然后通過在線教師-學生訓練迭代,以能力平衡的方式對VLA模型進行進一步的精細化調整,使其能夠學習到多種導航能力并實現性能的提升。

      • 在多種 合成環境和真實世界環境 中進行了廣泛的實驗,結果表明該方法不僅在不同能力的測試場景中表現出色,還能夠實現從仿真到現實的有效遷移,并且最終超越了專門訓練的RL專家,證明了學習多種能力的協同效應。

      研究背景
      • 視覺導航因其模仿人類使用自身視覺觀察進行導航的方式而備受關注,它能夠提供詳細的環境信息且成本較低。然而,視覺數據的解釋和適當導航動作的規劃是一個挑戰,需要高度智能的模型和大規模的導航數據。

      • 現有的方法主要通過學習策略來隱式解釋視覺輸入并預測后續動作,但這些方法受限于有限的觀察視角和相對寬敞的環境,難以適用于更具挑戰性的場景。

      • 真實世界的導航數據主要來自單相機設置,缺乏極具挑戰性或危險性的場景;而合成導航數據雖然可以定制相機配置并生成反映不同導航能力的數據,但存在仿真到現實的差距,因為它們通常不是逼真的。

      方法 概述
      • 任務定義 :學習一個速度控制策略 π,使全向機器人能夠安全地導航到特定的目標點。在每個時間步 t,給定目標點位置 和多視圖 RGB 幀 ,策略 π 輸出一個動作 ,表示全向速度。目標是確保策略生成的速度無碰撞且能到達指定目標。

      • 方法概述 :方法包括兩個主要步驟:

        • 訓練多個 RL 專家并進行初始 VLA 微調 :在仿真環境中訓練三個具有不同導航能力(到達、擠壓、躲避)的 RL 專家,并收集他們的成功軌跡來初始化 VLA 模型。

        • 教師-學生在線訓練迭代 :將初步訓練的 VLA 模型部署到仿真環境中,通過在線收集 RL 專家的動作數據并進行能力平衡的數據聚合,迭代地微調 VLA 模型,直到性能收斂。

      不同導航能力的 RL 專家
      • 環境構建

        • 到達(Reaching) :包含隨機靜態障礙物的場景,機器人需要接近并到達特定目標點。

        • 擠壓(Squeezing) :包含密集排列的柱子和狹窄通道的場景,機器人需要通過視覺反饋安全地通過這些通道。

        • 躲避(Avoiding) :包含動態障礙物的場景,機器人需要主動躲避這些障礙物。

      • RL 專家架構

        • 使用 PPO 算法進行訓練,每個時間步的觀察包括四個方向的深度圖像、上一動作和目標位置。

        • 每個深度圖像通過 ResNet-18 編碼成特征向量,與上一動作、目標位置和歷史標記拼接后輸入到 MLP 中,預測速度動作。

      • 獎勵函數 :獎勵函數鼓勵合理、目標導向且無碰撞的行為,不同能力的專家有不同的獎勵系數,以指導和專業化他們的行為。

      學生 VLA 模型
      • 視覺觀察編碼

        • 使用四個相機視圖(前、右、后、左)獲取 360° 觀察。

        • 使用視覺基礎模型(SigLIP)和交叉模態投影器將多視圖 RGB 圖像編碼為視覺標記。

        • 使用滑動窗口選擇視覺標記,以保持合理的視覺標記序列長度,確保推理速度。

      • 動作預測

        • 將目標點格式化為文本提示并編碼為語言標記。

        • 將視覺標記和語言標記輸入到大型語言模型(Qwen2)中,預測動作標記。

        • 使用動作頭(兩層 MLP)將動作標記轉換為機器人速度。

      • 損失函數 :使用均方誤差損失進行動作預測,并保留開放世界問答數據的交叉熵損失,以減輕仿真到現實的差距。

      RL 專家與 VLA 迭代
      • 初始專家數據收集與 VLA 微調

        • 收集 RL 專家在仿真中生成的成功軌跡,形成包含 500k 步的數據集。

        • 使用這些數據對 VLA 模型進行初始微調,確保模型在不同場景中具有初步的導航能力。

      • 教師-學生在線訓練迭代

        • 將初步訓練的 VLA 模型部署到仿真環境中,收集對應 RL 專家的動作數據。

        • 使用能力平衡的數據聚合方法,根據 VLA 模型與 RL 專家之間的性能差距動態調整數據比例。

        • 使用聚合的數據微調 VLA 模型,重復迭代直到性能不再提升。

      實現細節
      • RL 訓練策略

        • 在 IsaacLab 中使用 NVIDIA RTX 4090 GPU 訓練 RL 專家,采用歷史感知的演員-評論家架構。

        • 深度值被裁剪以過濾噪聲,動作分布初始化時加入噪聲以鼓勵探索。

      • VLA 訓練策略

        • 在 8 個 NVIDIA H100 GPU 上對初始 VLA 模型進行微調,使用預訓練的視覺編碼器和 LLM。

        • 初始訓練包含來自三個 RL 專家的 500k 步數據和 100k 視覺問答數據。

        • 每次教師-學生訓練迭代包含 200k 步在線收集的專家數據和 40k 視覺問答數據。

      • 部署策略

        • 在 Unitree GO2 機器人上部署方法,使用服務器上的 NVIDIA RTX 5090 GPU 運行 VLA 模型。

        • 使用四個魚眼相機獲取四視圖實時圖像,經過校正后輸入到 VLA 模型中。

        • VLA 模型輸出的速度由低級控制器執行,平均響應頻率約為 7Hz。

      實驗 實驗設置
      • 仿真環境設置

        • IsaacLab 仿真環境中評估方法,設計了三個特定能力的固定場景(Reaching、Squeezing、Avoiding)以及一個綜合測試場景(Mixed),后者包含靜態障礙物、動態障礙物和狹窄通道,用于評估模型的泛化能力。

        • 每個仿真場景的終止條件包括:機器人成功到達目標、與障礙物碰撞或超時(Reaching、Squeezing、Avoiding 場景為 90 秒,Mixed 場景為 120 秒)。


      • 真實世界環境設置

        • 構建了四個真實世界場景,包括狹窄之字形走廊(Narrow Zigzag Corridor)、薄障礙物躲避(Thin Obstacle Avoidance)、動態環境(Dynamic Environment)和雜亂靜態環境(Cluttered Static Environment),用于評估從仿真到現實的遷移能力和泛化能力。

        • 這些場景設計用于測試特定技能,并驗證模型對訓練數據中不存在的新物體和材料的魯棒性。

      • 評估指標與基線

        • 使用三個指標評估方法:成功率(Success Rate, SR)、碰撞率(Collision Rate, CR)和加權旅行時間(Weighted Travel Time, WTT,即成功場景的平均時間除以成功率)。

        • 每個方法和場景運行 100 個回合以計算這些指標。

      定量結果
      • 仿真基準測試結果

        • 上表總結了仿真環境中的定量結果。與現有方法(如 iPlanner、ViPlanner 和 NavDP)相比,MM-Nav 在幾乎所有測試場景中都實現了最高的成功率(SR)、最低的碰撞率(CR)和最短的加權旅行時間(WTT)。

        • 例如,在 Reaching 場景中,MM-Nav 的成功率為 80%,碰撞率為 20%,加權旅行時間為 31.0 秒;而在 Squeezing 場景中,成功率為 71%,碰撞率為 19%,加權旅行時間為 42.2 秒。

        • 這些結果表明 MM-Nav 不僅能夠確保無碰撞運動,還能規劃出更有效的路徑。

      定性結果


      • 真實世界場景中的表現

        • 在狹窄之字形走廊和雜亂靜態環境中,機器人能夠精確調整以通過障礙物,展現出出色的敏捷性。

        • 在薄障礙物躲避場景中,機器人成功避開了薄織物條,這些障礙物對于激光雷達傳感器來說很難檢測(激光雷達傳感器的本地避障系統完全失敗)。

        • 在辦公室走廊泛化場景中,模型能夠繞過未見過的物體,如椅子,并處理部分透明的玻璃墻等具有挑戰性的材料,確認了其從仿真到現實的泛化能力。

      消融研究
      • 在線訓練迭代的性能提升

        • 上圖展示了初始 VLA 模型及其變體在前四次訓練迭代后的性能。初始行為克隆訓練后,VLA 模型在所有三種能力中都存在明顯的性能差距,特別是在擠壓能力方面。

        • 通過幾次在線訓練迭代,模型的性能逐漸提高。在第一次迭代中,能力平衡的數據聚合方法重點關注擠壓能力,導致了顯著的改進。經過四次迭代后,三種任務的性能趨于穩定,且 VLA 模型在所有任務中的表現都超過了 RL 專家。

      • 能力平衡數據聚合方法的優勢

        • 基于相同的初始 VLA 模型,使用能力平衡的數據和不平衡的數據分別進行訓練迭代。結果表明,能力平衡的方法能夠及時補充缺乏的能力,實現更快更穩定的訓練。

        • 盡管不平衡的方法在 Reaching 場景中取得了更好的性能,但在 Squeezing 和 Avoiding 場景中學習效率低下。能力平衡的方法有助于將不同 RL 專家的數據融合在一起,防止 VLA 模型忽視特定能力。

      • 專家組合策略的效果

        • 通過訓練三個 VLA 模型,每個模型使用來自單一 RL 專家的數據,以及在混合場景中訓練的單一 RL 專家,來研究組合不同能力的 RL 專家對 VLA 學生的影響。

        • 上表顯示,使用單一數據源訓練的模型在對應場景中表現出色,但在需要未見能力的任務中泛化能力差。相比之下,使用混合數據訓練的 VLA 模型在跨能力性能上表現出顯著的優勢,超過了所有單一數據源訓練的模型。

        • 這表明不同能力之間的互補性和相互增強性,單一專家訓練的模型在特定領域表現出色,但缺乏其他能力提供的更廣泛上下文知識。而混合訓練使學生接觸到多種技能維度,能夠構建跨越多個能力的共享表示。

      結論與未來工作
      • 結論

        • MM-Nav通過從多個專門的RL專家那里學習,成功地獲得了一種強大的、通用的視覺導航策略,證明了學習多種能力的協同效應,并為訓練新一代通用視覺導航智能體提供了一個可擴展且有效的藍圖。

      • 未來工作

        • 探索該訓練策略的跨實體潛力,并進一步通過VLA和其他方法推進僅視覺導航的發展。


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      貿易流向已完全按政治站隊

      貿易流向已完全按政治站隊

      邊際財經實驗室
      2025-12-20 13:16:50
      融入德國!樊振東開凱迪拉克豪車上班,戴白手套按工作人員指引泊車

      融入德國!樊振東開凱迪拉克豪車上班,戴白手套按工作人員指引泊車

      818體育
      2025-12-20 16:57:47
      全球反詐會議在曼谷舉行,58國到場、柬埔寨缺席

      全球反詐會議在曼谷舉行,58國到場、柬埔寨缺席

      犀利辣椒
      2025-12-21 06:43:58
      羅永浩吐槽網速,上海電信回應

      羅永浩吐槽網速,上海電信回應

      新京報政事兒
      2025-12-19 22:39:05
      “9塊錢能要你命嗎?”女兒買面包母親對著屏幕發瘋,太窒息了

      “9塊錢能要你命嗎?”女兒買面包母親對著屏幕發瘋,太窒息了

      妍妍教育日記
      2025-12-20 08:25:04
      史曉燕不再沉默,狠狠替何晴出了口惡氣,難怪許亞軍會缺席葬禮

      史曉燕不再沉默,狠狠替何晴出了口惡氣,難怪許亞軍會缺席葬禮

      以茶帶書
      2025-12-20 13:35:58
      曝馬刺對送走索漢持開放態度 目標換回一名即戰力輪換球員

      曝馬刺對送走索漢持開放態度 目標換回一名即戰力輪換球員

      北青網-北京青年報
      2025-12-21 08:44:02
      翁帆新消息傳來,太令人驚喜了

      翁帆新消息傳來,太令人驚喜了

      深度報
      2025-12-18 22:35:44
      梁王復仇黑塔,圣壇淚灑采訪區,混雙會師,附總決賽21日賽程

      梁王復仇黑塔,圣壇淚灑采訪區,混雙會師,附總決賽21日賽程

      佑銘羽球
      2025-12-21 03:03:17
      600萬中鋒!0籃板,4投0中,廣東球迷:好在朱芳雨沒簽他

      600萬中鋒!0籃板,4投0中,廣東球迷:好在朱芳雨沒簽他

      體育哲人
      2025-12-21 08:31:04
      又貴又雜,印度空軍裝備太亂,戰時根本沒辦法維護

      又貴又雜,印度空軍裝備太亂,戰時根本沒辦法維護

      三叔的裝備空間
      2025-12-21 09:59:16
      豪門悲喜夜:9人熱刺1-2利物浦 阿森納1-0 姆總平C羅紀錄皇馬2-0

      豪門悲喜夜:9人熱刺1-2利物浦 阿森納1-0 姆總平C羅紀錄皇馬2-0

      狍子歪解體壇
      2025-12-21 06:11:30
      班花參加同學會,超高顏值驚艷全場,男同學太激動沒抱穩雙雙倒地

      班花參加同學會,超高顏值驚艷全場,男同學太激動沒抱穩雙雙倒地

      梅子的小情緒
      2025-12-20 15:36:42
      南方黑芝麻糊成分含量最多的竟然不是黑芝麻?配料表引爭議,最新回應

      南方黑芝麻糊成分含量最多的竟然不是黑芝麻?配料表引爭議,最新回應

      極目新聞
      2025-12-20 14:28:37
      關于性欲的真相(適用于所有人)

      關于性欲的真相(適用于所有人)

      心理咨詢師陳實
      2025-12-03 22:10:03
      國家統計局原局長邱曉華:很多人按揭買的房子,房子的價格已經比首付還要低!它給人帶來的心理沖擊是很大的

      國家統計局原局長邱曉華:很多人按揭買的房子,房子的價格已經比首付還要低!它給人帶來的心理沖擊是很大的

      和訊網
      2025-12-18 17:46:52
      超級射手!西甲第1!一夜間追平C羅紀錄,2億巨星轟59球

      超級射手!西甲第1!一夜間追平C羅紀錄,2億巨星轟59球

      烏龍球OwnGoal
      2025-12-21 10:17:12
      CBA最新消息!山東男籃更換外援,奧利弗確定離開遼寧

      CBA最新消息!山東男籃更換外援,奧利弗確定離開遼寧

      體壇瞎白話
      2025-12-21 08:38:06
      字越少,事越大!

      字越少,事越大!

      互聯網思維
      2025-12-19 23:32:33
      海南封關,缺電的越南坐不住了!越總理:明年越南要建8個自貿區

      海南封關,缺電的越南坐不住了!越總理:明年越南要建8個自貿區

      阿離家居
      2025-12-21 09:28:52
      2025-12-21 10:43:00
      算法與數學之美 incentive-icons
      算法與數學之美
      分享知識,交流思想
      5271文章數 64595關注度
      往期回顧 全部

      科技要聞

      生態適配已超95% 鴻蒙下一關:十萬個應用

      頭條要聞

      愛潑斯坦案最新文件公布 有記錄顯示來電人為特朗普

      頭條要聞

      愛潑斯坦案最新文件公布 有記錄顯示來電人為特朗普

      體育要聞

      我開了20年大巴,現在是一名西甲主帥

      娛樂要聞

      鹿晗關曉彤戀愛期間毫不避諱?

      財經要聞

      百年老店陷貼牌爭議 同仁堂必須作出取舍

      汽車要聞

      -30℃,標致508L&凡爾賽C5 X冰雪"大考"

      態度原創

      教育
      本地
      親子
      公開課
      軍事航空

      教育要聞

      從“招生困難”到“火爆教育圈”,范家小學做對了什么?

      本地新聞

      云游安徽|訪黃山云海古村,讀一城山水風骨

      親子要聞

      斷奶后乳房萎縮,怎么辦? 斷奶后乳房萎縮,怎么辦?

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      澤連斯基:前線局勢愈發艱難

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久99精品久久久久久9| 亚洲狠狠婷婷综合久久久久图片 | 伊人偷拍| 久久国模吧| 人妻人人澡人人添人人爽人人玩| 日本熟妇色xxxxx日本免费看| 日韩一区二区三区女优丝袜| 在线啊v中文字幕| 无码人妻一区二区三区免费n鬼沢| 胸大美女又黄的网站| 91在线观看视频| 国产成人A片| 尼玛县| 久久人人爽人人爽人人片av高清 | 亚洲国产精品成人av网| 91爱爱网| 日本无遮挡吸乳视频| 国产av夜夜欢一区二区三区| 男女18禁啪啪无遮挡激烈网站| 日韩毛片在线免费观看| 艳妇臀荡乳欲伦交换在线播放| 日本欧美大码a在线观看| 国产视频一区二区三区四区视频| 伊人网狼人| 18成人片黄网站www| 人妻 丝袜美腿 中文字幕| AV一本| 邹平县| 大伊香蕉精品一区视频在线| 欧美色色色| 午夜剧场黄色| 国产成人a亚洲精品无| 韩国三级大全久久网站| av无码精品一区二区乱子| 2020日韩无码| 亚洲不卡视频| 多p在线观看| 制服丝袜在线云霸| jizz国产| 内射人妻无码色| 国产成人综合久久精品免费|