網易首頁 > 網易號 > 正文申請入駐

RAPID：基于逆強化學習的無人機視覺導航魯棒且敏捷規劃器

2025-10-19 20:21:57　來源: 算法與數學之美

北京舉報

分享至

文章來源：視覺語言導航。

作者：Minwoo Kim, Geunsik Bae, Jinwoo Lee, Woojae Shin, Changseung Kim, Myong-Yol Choi, Heejung Shin, Hyondong Oh
單位：韓國蔚山科學技術院機械工程系
論文標題：RAPID: Robust and Agile Planner Using Inverse Reinforcement Learning for Vision-Based Drone Navigation
論文鏈接：https://arxiv.org/pdf/2502.02054

主要貢獻

提出了 基于逆強化學習 的學習型視覺規劃器RAPID，用于復雜環境中的敏捷無人機飛行，能夠在毫秒級生成無碰撞的航點，無需單獨的感知、建圖和規劃模塊，可直接應用于現實場景，無需額外訓練或調整。
開發了 基于逆軟Q學習 的框架，用于高速視覺導航，無需手動設計獎勵函數，通過針對高速場景的吸收態處理，實現魯棒且樣本高效的策略學習。
引入 輔助自編碼器 損失函數，減輕高維視覺輸入的復雜性，提高學習效率。
通過在訓練中考慮 控制器跟蹤誤差 ，減少仿真到現實（sim-to-real）的差距，驗證了在自然和城市環境中以平均速度7 m/s進行高速飛行實驗的可行性。

研究背景

無人機（UAV）因其敏捷性和緊湊性，在災難救援、城市室內探索和目標跟蹤等領域具有廣泛應用前景，但在復雜環境中（如森林和工廠）利用其敏捷性仍面臨感知、控制和實時運動規劃的挑戰。
傳統的視覺導航方法依賴于模塊化架構，將感知、建圖和規劃分開，雖然具有可解釋性和易于與其他模塊集成的優點，但計算成本高、延遲大，不適合敏捷無人機飛行。而端到端的神經網絡學習方法將感知、建圖和規劃集成到一個過程中，減少了延遲，能夠實現快速實時規劃。
行為克隆（BC）和強化學習（RL）是常用的視覺導航學習方法，但BC容易因專家模仿有限而出現累積誤差，RL則面臨獎勵函數設計困難和樣本效率低下的問題。逆強化學習（IRL）通過從專家行為中學習潛在獎勵來解決這些問題，但在視覺導航任務中應用IRL仍面臨諸多挑戰，如高維視覺信息處理、實時可行性檢查和精確飛行姿態控制等。

方法

基礎知識

RAPID 將視覺導航問題建模為無限時域馬爾可夫決策過程（MDP），其組成部分包括狀態、動作、初始狀態分布、轉移概率、獎勵函數和折扣因子。策略是一個隨機策略，表示在給定狀態時采取動作的概率分布。數據集分為專家策略數據和學習者策略數據。

狀態和動作

狀態：
- 狀態空間包括深度圖像、速度、姿態四元數和相對目標向量。
- 為了縮小仿真與現實環境之間的差距，使用半全局匹配（SGM）算法生成類似真實深度圖像的立體深度圖像用于訓練。
- 采用低分辨率圖像（64×64）以減少過擬合并提高魯棒性。

動作：
- 動作包含個航路點，每個航路點由相對距離和相對角度定義，使用柱坐標系表示以減少動作空間的復雜性。
- 將柱坐標系中的航路點轉換為笛卡爾坐標系中的絕對位置，最終生成的動作是個航路點的集合。
- 設置，時間間隔秒。

樣本高效訓練與圖像重建

輔助自編碼器損失函數：
- 使用 -VAE學習緊湊的狀態表示，將高維輸入嵌入到低維潛在向量中，同時減輕噪聲并提高視覺數據處理的魯棒性。
- 自編碼器由卷積編碼器和反卷積解碼器組成，目標函數包括重建誤差、潛在向量的正則化和解碼器參數的權重衰減。
- 為了避免策略網絡的梯度更新影響編碼器，只允許critic網絡的梯度更新共享的編碼器參數。
- 采用更快的 Polyak 平均率更新目標 Q 函數的編碼器參數，以解決梯度傳播延遲的問題。
跳躍連接網絡：
- 采用 D2RL 網絡結構，通過跳躍連接保留重要輸入信息，實現更快的收斂速度。
- 使用正交初始化和 delta-正交初始化分別初始化全連接層和卷積層的權重，以提高學習過程的穩定性。

隱式獎勵的策略學習

學習隱式獎勵：
- 使用最小二乘逆 Q 學習（LS-IQ）算法，通過逆軟 Q 學習（IQ-learning）引入逆貝爾曼算子，將獎勵函數表示為 Q 函數的形式，從而無需單獨訓練獎勵網絡。
- 通過引入正則化項來穩定學習過程，該正則化項結合了專家數據和學習者數據的分布，以平衡兩者的貢獻。
- 對于吸收態（如目標或碰撞狀態），采用引導式更新和分析計算相結合的方法來處理，提高穩定性。
- 設置吸收態獎勵值和，以避免在終端狀態獲得過高獎勵，增強障礙物規避性能。
SAC更新：
- 使用soft actor-critic（SAC）方法更新策略，通過固定 Q 函數來近似最優策略。
- 策略更新公式為，其中是溫度參數，用于控制探索與利用的權衡。

軌跡生成與控制

軌跡生成：
- 將離散的航路點轉換為連續可微的軌跡，軌跡可以表示為沿每個軸的多項式函數。
- 為了確保軌跡的平滑性，多項式段的起點和終點必須與指定的航路點一致，并且在中間航路點處保持導數的連續性。
- 通過求解優化問題來最小化加速度平方的積分，生成軌跡，采用四階多項式并確保在航路點處速度連續。
軌跡跟蹤控制：
- 使用幾何控制器進行軌跡跟蹤，該控制器通過直接應用剛體動力學的幾何原理來確保跟蹤精度和穩定性，計算出必要的機體角速度和推力指令。
- 幾何控制器的低延遲和易于實現的特點使其更適合于學習過程，與模型預測控制（MPC）相比，幾何控制器的計算開銷更低。

仿真數據獲取與訓練

數據獲取：
- 環境設置 ：使用 AirSim 模擬器生成多樣化的訓練環境，包括樹木、圓錐體、立方體、球體等障礙物，以增強模型的泛化能力。圖 6 展示了不同訓練環境的示例。
- 專家數據生成 ：采用基于運動原語的專家規劃器生成全局軌跡。首先收集環境的點云數據，構建全局軌跡，然后根據障礙物成本采樣局部軌跡。全局軌跡是從起點到終點的完整路徑，局部軌跡是全局軌跡的細化片段。
- 參數設置 ：全局軌跡的平均速度設置為 7m/s，最大速度和加速度分別限制為 8m/s 和 10m/s2。為了增加軌跡多樣性，對滾轉角和偏航角施加隨機擾動（最大 0.3 弧度）。共生成 1,800 條全局軌跡，覆蓋 600 個訓練地圖，最終收集到約 10 萬個局部軌跡及其對應的狀態-動作數據。
訓練：
- 領域隨機化 ：為了增強模型的泛化能力，訓練過程中應用了多種隨機化技術。例如，每次訓練時隨機選擇起始位置，并在控制器增益中加入約 10% 的噪聲。此外，還使用了圖像隨機打亂技術以增強編碼器的魯棒性。
- 地圖更新 ：每 5 個訓練周期更換一次地圖，以增加環境的多樣性。
- 訓練終止條件 ：如果無人機與障礙物碰撞或到達目標點，則終止當前訓練周期。

仿真結果

基線方法 ：將 RAPID 與以下基線方法進行比較：
- 行為克隆（BC） ：使用預訓練的 MobileNetV3 模型，具有相同的網絡結構。
- 最小二乘逆 Q 學習（LS-IQ） ：與 RAPID 具有相同的網絡結構，但吸收態獎勵更新規則不同。
- AGILE ：基于 DAgger 的規劃器，使用松弛的贏者通吃（R-WTA）損失函數。
實驗設置 ：在不同樹密度的測試環境中進行實驗，樹密度表示單位面積內的樹木數量。樹木被隨機傾斜并賦予隨機方向，以增加測試環境的復雜性。樹木的尺寸根據連續均勻隨機分布進行隨機化，范圍為，測試地圖大小為 50m×50m。

測試環境 ：測試環境的樹密度分別為 1/80、1/50、1/30 和 1/25（單位：樹木/平方米）。圖 7 展示了不同樹密度的測試環境。
評估指標 ：包括任務進度（MP，從起點到目標點的進度）、速度和飛行距離。
實驗結果 ：
- BC ：由于過擬合和累積誤差，性能最低。在復雜環境中，其泛化能力受限。
- LS-IQ ：性能優于 BC，但在高樹密度環境中，優先考慮高速飛行而犧牲了碰撞規避能力。
- AGILE ：在低樹密度環境中表現良好，但在高樹密度環境中，其性能顯著下降，且對控制器跟蹤誤差的適應性較差。
- RAPID ：在所有測試條件下均表現出最佳的碰撞規避性能，任務進度和速度均優于其他方法。表 I 和圖 8 展示了詳細的定量結果。

實驗硬件設置

無人機設計 ：
- 為了實現高速飛行，設計了一款類似競速無人機的輕量化無人機，配備 Velox 2550kV 電機和 Gemfan Hurricane 51466 螺旋槳，整體重量為 1.1kg，推重比達到 3.57，能夠進行高速和敏捷機動。
- 機載計算單元采用 NVIDIA Jetson Orin NX，該計算板輕巧且緊湊，能夠快速執行神經網絡部署。
- 使用 Oak-D Pro 深度相機進行深度測量和視覺慣性里程計（VIO），相機配備全局快門鏡頭，提供 80°×55° 的立體圖像視野和 72°×50° 的立體深度圖像視野，圖像和深度圖像的采集頻率均為 20Hz。

處理延遲測試 ：
- 上表顯示了 RAPID 模型與 AGILE 模型的處理延遲對比。盡管 RAPID 的參數數量更多，但由于其浮點運算次數（FLOPS）更低，因此在 CPU 和 GPU 推理速度上均優于 AGILE，推理時間比 AGILE 快 6 倍以上。

系統概述

系統模塊 ：
- VIO 模塊 ：使用 OpenVINS 進行穩定高速飛行，該模塊結合圖像狀態信息和慣性測量單元（IMU）數據，深度相機以 20Hz 的頻率運行，IMU 測量數據以 200Hz 的頻率收集，最終將局部里程計信息以 20Hz 的頻率發布到 PX4 自動飛行控制系統。
- 局部規劃器模塊 ：RAPID 方法以 10Hz 的頻率接收深度圖像、速度、姿態和目標方向向量，并生成無碰撞航路點。生成的航路點通過最小加速度軌跡生成方法轉換為連續軌跡，然后以 50Hz 的頻率對軌跡進行采樣，以獲得目標位置和速度指令。
- 控制器模塊 ：幾何控制器根據目標位置和速度指令計算必要的機體角速度和推力指令，以跟蹤目標軌跡。這些指令以 250Hz 的頻率發送到 PX4 控制器，控制無人機的執行器。
系統集成 ：
- 整個系統包括 VIO、局部規劃器和控制器三個模塊，如圖 9(b) 所示。系統能夠實現從視覺輸入到軌跡生成和跟蹤的完整流程，確保無人機在復雜環境中進行高速飛行。

實驗結果

自然環境實驗 ：
- 長森林場景 ：樹木間距為 5 米，目標點距離 60 米。實驗中，無人機從懸停狀態開始，沿著軌跡飛行，成功避開沿途障礙物，最大速度達到 7.5m/s。
- 短森林場景 ：樹木密集排列，間距為 2 米，目標點距離 30 米。為了測試無人機在更復雜環境中的飛行能力，將航路點生成時間縮短至 0.9 秒，無人機成功到達目標點，最大速度達到 8.8m/s。
- 觀察現象 ：盡管訓練數據集中的速度為 7m/s，但 IRL 訓練使策略能夠表現出加速和減速行為，甚至在接近障礙物時顯著降低速度以執行避障動作，這表明 IRL 方法能夠超越簡單模仿專家行為，有效捕捉避障意圖。

城市環境實驗 ：
- 大塊障礙物場景 ：障礙物幾何形狀簡單但體積較大。為了降低安全風險，將無人機速度降低至平均 6m/s。無人機成功從起點生成避障路徑并到達目的地，最大速度達到 6.5m/s。
- 柱狀障礙物場景 ：包含六個大型柱狀障礙物。無人機在飛行過程中減速以避開障礙物，然后再次加速，最終成功到達目的地，最大速度達到 6.2m/s。
- 實驗結論 ：盡管模型僅在仿真環境中訓練，但在真實世界場景中表現出良好的性能，與仿真環境相比幾乎沒有性能下降。實驗結果表明，模型在類似仿真設置的樹環境中部分彌合了仿真到現實的差距，并且在城市環境中能夠泛化到新的障礙物形狀，展現出對多樣化真實世界環境的適應能力。

結論與未來工作

結論：
- RAPID作為一種基于IRL的無人機視覺規劃器，在復雜環境中的高速視覺導航方面表現出色，通過整合視覺輸入和規劃，能夠實時生成無碰撞的航點，并在仿真和現實世界場景中均展現出優越的性能。
- 盡管RAPID取得了良好的效果，但仍存在一些局限性，如缺乏時間感知能力導致在面對大型障礙物時容易陷入局部最小值；在探索過程中可能會生成不可行的軌跡，影響Q函數的收斂；專家數據集的不完整性可能導致模型在遇到遠離專家軌跡的狀態時無法找到解決方案；sim-to-real差距尚未完全彌合。
未來工作 ：
- 將致力于解決這些限制，通過探索基于記憶的架構、采用基于約束的強化學習方法以及改進數據獲取策略，以實現更穩健、可擴展和高效的高速無人機導航學習。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.