文章來源:視覺語言導航。
作者:Tianyu Xu , Jiawei Chen , Jiazhao Zhang , Wenyao Zhang , Zekun Qi , Minghan Li , Zhizheng Zhang , He Wang
單位: 北京大學, Galbot, 上海交通大學, 清華大學, 北京人工智能研究院
論文標題:MM-Nav: Multi-View VLA Model for Robust Visual Navigation via Multi-Expert Learning
論文鏈接:https://arxiv.org/pdf/2510.03142v1
項目主頁:https://pku-epic.github.io/MM-Nav-Web/
提出基于多視圖的視覺-語言-動作模型 MM-Nav ,能夠從多個強化學習(RL)專家那里學習不同的導航能力,并通過多專家學習實現魯棒的視覺導航。
設計了 包含兩個階段的訓練過程 :首先利用從RL專家那里收集的大規模離線數據集對VLA模型進行初始微調;然后通過在線教師-學生訓練迭代,以能力平衡的方式對VLA模型進行進一步的精細化調整,使其能夠學習到多種導航能力并實現性能的提升。
在多種 合成環境和真實世界環境 中進行了廣泛的實驗,結果表明該方法不僅在不同能力的測試場景中表現出色,還能夠實現從仿真到現實的有效遷移,并且最終超越了專門訓練的RL專家,證明了學習多種能力的協同效應。
視覺導航因其模仿人類使用自身視覺觀察進行導航的方式而備受關注,它能夠提供詳細的環境信息且成本較低。然而,視覺數據的解釋和適當導航動作的規劃是一個挑戰,需要高度智能的模型和大規模的導航數據。
現有的方法主要通過學習策略來隱式解釋視覺輸入并預測后續動作,但這些方法受限于有限的觀察視角和相對寬敞的環境,難以適用于更具挑戰性的場景。
真實世界的導航數據主要來自單相機設置,缺乏極具挑戰性或危險性的場景;而合成導航數據雖然可以定制相機配置并生成反映不同導航能力的數據,但存在仿真到現實的差距,因為它們通常不是逼真的。
任務定義 :學習一個速度控制策略 π,使全向機器人能夠安全地導航到特定的目標點。在每個時間步 t,給定目標點位置 和多視圖 RGB 幀 ,策略 π 輸出一個動作 ,表示全向速度。目標是確保策略生成的速度無碰撞且能到達指定目標。
方法概述 :方法包括兩個主要步驟:
訓練多個 RL 專家并進行初始 VLA 微調 :在仿真環境中訓練三個具有不同導航能力(到達、擠壓、躲避)的 RL 專家,并收集他們的成功軌跡來初始化 VLA 模型。
教師-學生在線訓練迭代 :將初步訓練的 VLA 模型部署到仿真環境中,通過在線收集 RL 專家的動作數據并進行能力平衡的數據聚合,迭代地微調 VLA 模型,直到性能收斂。
環境構建 :
到達(Reaching) :包含隨機靜態障礙物的場景,機器人需要接近并到達特定目標點。
擠壓(Squeezing) :包含密集排列的柱子和狹窄通道的場景,機器人需要通過視覺反饋安全地通過這些通道。
躲避(Avoiding) :包含動態障礙物的場景,機器人需要主動躲避這些障礙物。
RL 專家架構 :
使用 PPO 算法進行訓練,每個時間步的觀察包括四個方向的深度圖像、上一動作和目標位置。
每個深度圖像通過 ResNet-18 編碼成特征向量,與上一動作、目標位置和歷史標記拼接后輸入到 MLP 中,預測速度動作。
獎勵函數 :獎勵函數鼓勵合理、目標導向且無碰撞的行為,不同能力的專家有不同的獎勵系數,以指導和專業化他們的行為。
視覺觀察編碼 :
使用四個相機視圖(前、右、后、左)獲取 360° 觀察。
使用視覺基礎模型(SigLIP)和交叉模態投影器將多視圖 RGB 圖像編碼為視覺標記。
使用滑動窗口選擇視覺標記,以保持合理的視覺標記序列長度,確保推理速度。
動作預測 :
將目標點格式化為文本提示并編碼為語言標記。
將視覺標記和語言標記輸入到大型語言模型(Qwen2)中,預測動作標記。
使用動作頭(兩層 MLP)將動作標記轉換為機器人速度。
損失函數 :使用均方誤差損失進行動作預測,并保留開放世界問答數據的交叉熵損失,以減輕仿真到現實的差距。
初始專家數據收集與 VLA 微調 :
收集 RL 專家在仿真中生成的成功軌跡,形成包含 500k 步的數據集。
使用這些數據對 VLA 模型進行初始微調,確保模型在不同場景中具有初步的導航能力。
教師-學生在線訓練迭代 :
將初步訓練的 VLA 模型部署到仿真環境中,收集對應 RL 專家的動作數據。
使用能力平衡的數據聚合方法,根據 VLA 模型與 RL 專家之間的性能差距動態調整數據比例。
使用聚合的數據微調 VLA 模型,重復迭代直到性能不再提升。
RL 訓練策略 :
在 IsaacLab 中使用 NVIDIA RTX 4090 GPU 訓練 RL 專家,采用歷史感知的演員-評論家架構。
深度值被裁剪以過濾噪聲,動作分布初始化時加入噪聲以鼓勵探索。
VLA 訓練策略 :
在 8 個 NVIDIA H100 GPU 上對初始 VLA 模型進行微調,使用預訓練的視覺編碼器和 LLM。
初始訓練包含來自三個 RL 專家的 500k 步數據和 100k 視覺問答數據。
每次教師-學生訓練迭代包含 200k 步在線收集的專家數據和 40k 視覺問答數據。
部署策略 :
在 Unitree GO2 機器人上部署方法,使用服務器上的 NVIDIA RTX 5090 GPU 運行 VLA 模型。
使用四個魚眼相機獲取四視圖實時圖像,經過校正后輸入到 VLA 模型中。
VLA 模型輸出的速度由低級控制器執行,平均響應頻率約為 7Hz。
仿真環境設置 :
在 IsaacLab 仿真環境中評估方法,設計了三個特定能力的固定場景(Reaching、Squeezing、Avoiding)以及一個綜合測試場景(Mixed),后者包含靜態障礙物、動態障礙物和狹窄通道,用于評估模型的泛化能力。
每個仿真場景的終止條件包括:機器人成功到達目標、與障礙物碰撞或超時(Reaching、Squeezing、Avoiding 場景為 90 秒,Mixed 場景為 120 秒)。

真實世界環境設置 :
構建了四個真實世界場景,包括狹窄之字形走廊(Narrow Zigzag Corridor)、薄障礙物躲避(Thin Obstacle Avoidance)、動態環境(Dynamic Environment)和雜亂靜態環境(Cluttered Static Environment),用于評估從仿真到現實的遷移能力和泛化能力。
這些場景設計用于測試特定技能,并驗證模型對訓練數據中不存在的新物體和材料的魯棒性。
評估指標與基線 :
使用三個指標評估方法:成功率(Success Rate, SR)、碰撞率(Collision Rate, CR)和加權旅行時間(Weighted Travel Time, WTT,即成功場景的平均時間除以成功率)。
每個方法和場景運行 100 個回合以計算這些指標。
仿真基準測試結果 :
上表總結了仿真環境中的定量結果。與現有方法(如 iPlanner、ViPlanner 和 NavDP)相比,MM-Nav 在幾乎所有測試場景中都實現了最高的成功率(SR)、最低的碰撞率(CR)和最短的加權旅行時間(WTT)。
例如,在 Reaching 場景中,MM-Nav 的成功率為 80%,碰撞率為 20%,加權旅行時間為 31.0 秒;而在 Squeezing 場景中,成功率為 71%,碰撞率為 19%,加權旅行時間為 42.2 秒。
這些結果表明 MM-Nav 不僅能夠確保無碰撞運動,還能規劃出更有效的路徑。

真實世界場景中的表現 :
在狹窄之字形走廊和雜亂靜態環境中,機器人能夠精確調整以通過障礙物,展現出出色的敏捷性。
在薄障礙物躲避場景中,機器人成功避開了薄織物條,這些障礙物對于激光雷達傳感器來說很難檢測(激光雷達傳感器的本地避障系統完全失敗)。
在辦公室走廊泛化場景中,模型能夠繞過未見過的物體,如椅子,并處理部分透明的玻璃墻等具有挑戰性的材料,確認了其從仿真到現實的泛化能力。
在線訓練迭代的性能提升 :
上圖展示了初始 VLA 模型及其變體在前四次訓練迭代后的性能。初始行為克隆訓練后,VLA 模型在所有三種能力中都存在明顯的性能差距,特別是在擠壓能力方面。
通過幾次在線訓練迭代,模型的性能逐漸提高。在第一次迭代中,能力平衡的數據聚合方法重點關注擠壓能力,導致了顯著的改進。經過四次迭代后,三種任務的性能趨于穩定,且 VLA 模型在所有任務中的表現都超過了 RL 專家。
能力平衡數據聚合方法的優勢 :
基于相同的初始 VLA 模型,使用能力平衡的數據和不平衡的數據分別進行訓練迭代。結果表明,能力平衡的方法能夠及時補充缺乏的能力,實現更快更穩定的訓練。
盡管不平衡的方法在 Reaching 場景中取得了更好的性能,但在 Squeezing 和 Avoiding 場景中學習效率低下。能力平衡的方法有助于將不同 RL 專家的數據融合在一起,防止 VLA 模型忽視特定能力。
專家組合策略的效果 :
通過訓練三個 VLA 模型,每個模型使用來自單一 RL 專家的數據,以及在混合場景中訓練的單一 RL 專家,來研究組合不同能力的 RL 專家對 VLA 學生的影響。
上表顯示,使用單一數據源訓練的模型在對應場景中表現出色,但在需要未見能力的任務中泛化能力差。相比之下,使用混合數據訓練的 VLA 模型在跨能力性能上表現出顯著的優勢,超過了所有單一數據源訓練的模型。
這表明不同能力之間的互補性和相互增強性,單一專家訓練的模型在特定領域表現出色,但缺乏其他能力提供的更廣泛上下文知識。而混合訓練使學生接觸到多種技能維度,能夠構建跨越多個能力的共享表示。
結論 :
MM-Nav通過從多個專門的RL專家那里學習,成功地獲得了一種強大的、通用的視覺導航策略,證明了學習多種能力的協同效應,并為訓練新一代通用視覺導航智能體提供了一個可擴展且有效的藍圖。
未來工作 :
探索該訓練策略的跨實體潛力,并進一步通過VLA和其他方法推進僅視覺導航的發展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.