<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      RAPID:基于逆強化學習的無人機視覺導航魯棒且敏捷規劃器

      0
      分享至

      文章來源:視覺語言導航。

      • 作者:Minwoo Kim, Geunsik Bae, Jinwoo Lee, Woojae Shin, Changseung Kim, Myong-Yol Choi, Heejung Shin, Hyondong Oh

      • 單位:韓國蔚山科學技術院機械工程系

      • 論文標題:RAPID: Robust and Agile Planner Using Inverse Reinforcement Learning for Vision-Based Drone Navigation

      • 論文鏈接:https://arxiv.org/pdf/2502.02054

      主要貢獻
      • 提出了 基于逆強化學習 的學習型視覺規劃器RAPID,用于復雜環境中的敏捷無人機飛行,能夠在毫秒級生成無碰撞的航點,無需單獨的感知、建圖和規劃模塊,可直接應用于現實場景,無需額外訓練或調整。

      • 開發了 基于逆軟Q學習 的框架,用于高速視覺導航,無需手動設計獎勵函數,通過針對高速場景的吸收態處理,實現魯棒且樣本高效的策略學習。

      • 引入 輔助自編碼器 損失函數,減輕高維視覺輸入的復雜性,提高學習效率。

      • 通過在訓練中考慮 控制器跟蹤誤差 ,減少仿真到現實(sim-to-real)的差距,驗證了在自然和城市環境中以平均速度7 m/s進行高速飛行實驗的可行性。

      研究背景
      • 無人機(UAV)因其敏捷性和緊湊性,在災難救援、城市室內探索和目標跟蹤等領域具有廣泛應用前景,但在復雜環境中(如森林和工廠)利用其敏捷性仍面臨感知、控制和實時運動規劃的挑戰。

      • 傳統的視覺導航方法依賴于模塊化架構,將感知、建圖和規劃分開,雖然具有可解釋性和易于與其他模塊集成的優點,但計算成本高、延遲大,不適合敏捷無人機飛行。而端到端的神經網絡學習方法將感知、建圖和規劃集成到一個過程中,減少了延遲,能夠實現快速實時規劃。

      • 行為克隆(BC)和強化學習(RL)是常用的視覺導航學習方法,但BC容易因專家模仿有限而出現累積誤差,RL則面臨獎勵函數設計困難和樣本效率低下的問題。逆強化學習(IRL)通過從專家行為中學習潛在獎勵來解決這些問題,但在視覺導航任務中應用IRL仍面臨諸多挑戰,如高維視覺信息處理、實時可行性檢查和精確飛行姿態控制等。

      方法 基礎知識

      RAPID 將視覺導航問題建模為無限時域馬爾可夫決策過程(MDP),其組成部分包括狀態 、動作 、初始狀態分布 、轉移概率 、獎勵函數 和折扣因子 。策略 是一個隨機策略,表示在給定狀態 時采取動作 的概率分布。數據集分為專家策略數據 和學習者策略數據 。

      狀態和動作

      • 狀態

        • 狀態空間 包括深度圖像 、速度 、姿態四元數 和相對目標向量 。

        • 為了縮小仿真與現實環境之間的差距,使用半全局匹配(SGM)算法生成類似真實深度圖像的立體深度圖像用于訓練。

        • 采用低分辨率圖像(64×64)以減少過擬合并提高魯棒性。

      • 動作

        • 動作 包含 個航路點,每個航路點由相對距離 和相對角度 定義,使用柱坐標系表示以減少動作空間的復雜性。

        • 將柱坐標系中的航路點轉換為笛卡爾坐標系中的絕對位置,最終生成的動作 是 個航路點的集合。

        • 設置 ,時間間隔 秒。

      樣本高效訓練與圖像重建
      • 輔助自編碼器損失函數

        • 使用 -VAE學習緊湊的狀態表示,將高維輸入嵌入到低維潛在向量 中,同時減輕噪聲并提高視覺數據處理的魯棒性。

        • 自編碼器由卷積編碼器 和反卷積解碼器 組成,目標函數 包括重建誤差、潛在向量的 正則化和解碼器參數的權重衰減。

        • 為了避免策略網絡的梯度更新影響編碼器,只允許critic網絡的梯度更新共享的編碼器參數。

        • 采用更快的 Polyak 平均率更新目標 Q 函數的編碼器參數,以解決梯度傳播延遲的問題。

      • 跳躍連接網絡

        • 采用 D2RL 網絡結構,通過跳躍連接保留重要輸入信息,實現更快的收斂速度。

        • 使用正交初始化和 delta-正交初始化分別初始化全連接層和卷積層的權重,以提高學習過程的穩定性。

      隱式獎勵的策略學習
      • 學習隱式獎勵

        • 使用最小二乘逆 Q 學習(LS-IQ)算法,通過逆軟 Q 學習(IQ-learning)引入逆貝爾曼算子 ,將獎勵函數表示為 Q 函數的形式,從而無需單獨訓練獎勵網絡。

        • 通過引入正則化項 來穩定學習過程,該正則化項結合了專家數據和學習者數據的分布,以平衡兩者的貢獻。

        • 對于吸收態(如目標或碰撞狀態),采用引導式更新和分析計算相結合的方法來處理,提高穩定性。

        • 設置吸收態獎勵值 和 ,以避免在終端狀態獲得過高獎勵,增強障礙物規避性能。

      • SAC更新

        • 使用soft actor-critic(SAC)方法更新策略,通過固定 Q 函數來近似最優策略。

        • 策略更新公式為 ,其中 是溫度參數,用于控制探索與利用的權衡。

      軌跡生成與控制
      • 軌跡生成

        • 將離散的航路點轉換為連續可微的軌跡,軌跡 可以表示為沿每個軸的多項式函數。

        • 為了確保軌跡的平滑性,多項式段的起點和終點必須與指定的航路點一致,并且在中間航路點處保持導數的連續性。

        • 通過求解優化問題來最小化加速度平方的積分,生成軌跡,采用四階多項式并確保在航路點處速度連續。

      • 軌跡跟蹤控制

        • 使用幾何控制器進行軌跡跟蹤,該控制器通過直接應用剛體動力學的幾何原理來確保跟蹤精度和穩定性,計算出必要的機體角速度和推力指令。

        • 幾何控制器的低延遲和易于實現的特點使其更適合于學習過程,與模型預測控制(MPC)相比,幾何控制器的計算開銷更低。

      仿真 數據獲取與訓練
      • 數據獲取

        • 環境設置 :使用 AirSim 模擬器生成多樣化的訓練環境,包括樹木、圓錐體、立方體、球體等障礙物,以增強模型的泛化能力。圖 6 展示了不同訓練環境的示例。

        • 專家數據生成 :采用基于運動原語的專家規劃器生成全局軌跡。首先收集環境的點云數據,構建全局軌跡,然后根據障礙物成本采樣局部軌跡。全局軌跡是從起點到終點的完整路徑,局部軌跡是全局軌跡的細化片段。

        • 參數設置 :全局軌跡的平均速度設置為 7m/s,最大速度和加速度分別限制為 8m/s 和 10m/s2。為了增加軌跡多樣性,對滾轉角和偏航角施加隨機擾動(最大 0.3 弧度)。共生成 1,800 條全局軌跡,覆蓋 600 個訓練地圖,最終收集到約 10 萬個局部軌跡及其對應的狀態-動作數據。

      • 訓練

        • 領域隨機化 :為了增強模型的泛化能力,訓練過程中應用了多種隨機化技術。例如,每次訓練時隨機選擇起始位置,并在控制器增益中加入約 10% 的噪聲。此外,還使用了圖像隨機打亂技術以增強編碼器的魯棒性。

        • 地圖更新 :每 5 個訓練周期更換一次地圖,以增加環境的多樣性。

        • 訓練終止條件 :如果無人機與障礙物碰撞或到達目標點,則終止當前訓練周期。

      仿真結果
      • 基線方法 :將 RAPID 與以下基線方法進行比較:

        • 行為克隆(BC) :使用預訓練的 MobileNetV3 模型,具有相同的網絡結構。

        • 最小二乘逆 Q 學習(LS-IQ) :與 RAPID 具有相同的網絡結構,但吸收態獎勵更新規則不同。

        • AGILE :基于 DAgger 的規劃器,使用松弛的贏者通吃(R-WTA)損失函數。

      • 實驗設置 :在不同樹密度的測試環境中進行實驗,樹密度表示單位面積內的樹木數量。樹木被隨機傾斜并賦予隨機方向,以增加測試環境的復雜性。樹木的尺寸根據連續均勻隨機分布進行隨機化,范圍為 ,測試地圖大小為 50m×50m。

      • 測試環境 :測試環境的樹密度分別為 1/80、1/50、1/30 和 1/25(單位:樹木/平方米)。圖 7 展示了不同樹密度的測試環境。

      • 評估指標 :包括任務進度(MP,從起點到目標點的進度)、速度和飛行距離。

      • 實驗結果

        • BC :由于過擬合和累積誤差,性能最低。在復雜環境中,其泛化能力受限。

        • LS-IQ :性能優于 BC,但在高樹密度環境中,優先考慮高速飛行而犧牲了碰撞規避能力。

        • AGILE :在低樹密度環境中表現良好,但在高樹密度環境中,其性能顯著下降,且對控制器跟蹤誤差的適應性較差。

        • RAPID :在所有測試條件下均表現出最佳的碰撞規避性能,任務進度和速度均優于其他方法。表 I 和圖 8 展示了詳細的定量結果。

      實驗 硬件設置
      • 無人機設計

        • 為了實現高速飛行,設計了一款類似競速無人機的輕量化無人機,配備 Velox 2550kV 電機和 Gemfan Hurricane 51466 螺旋槳,整體重量為 1.1kg,推重比達到 3.57,能夠進行高速和敏捷機動。

        • 機載計算單元采用 NVIDIA Jetson Orin NX,該計算板輕巧且緊湊,能夠快速執行神經網絡部署。

        • 使用 Oak-D Pro 深度相機進行深度測量和視覺慣性里程計(VIO),相機配備全局快門鏡頭,提供 80°×55° 的立體圖像視野和 72°×50° 的立體深度圖像視野,圖像和深度圖像的采集頻率均為 20Hz。

      • 處理延遲測試

        • 上表顯示了 RAPID 模型與 AGILE 模型的處理延遲對比。盡管 RAPID 的參數數量更多,但由于其浮點運算次數(FLOPS)更低,因此在 CPU 和 GPU 推理速度上均優于 AGILE,推理時間比 AGILE 快 6 倍以上。

      系統概述
      • 系統模塊

        • VIO 模塊 :使用 OpenVINS 進行穩定高速飛行,該模塊結合圖像狀態信息和慣性測量單元(IMU)數據,深度相機以 20Hz 的頻率運行,IMU 測量數據以 200Hz 的頻率收集,最終將局部里程計信息以 20Hz 的頻率發布到 PX4 自動飛行控制系統。

        • 局部規劃器模塊 :RAPID 方法以 10Hz 的頻率接收深度圖像、速度、姿態和目標方向向量,并生成無碰撞航路點。生成的航路點通過最小加速度軌跡生成方法轉換為連續軌跡,然后以 50Hz 的頻率對軌跡進行采樣,以獲得目標位置和速度指令。

        • 控制器模塊 :幾何控制器根據目標位置和速度指令計算必要的機體角速度和推力指令,以跟蹤目標軌跡。這些指令以 250Hz 的頻率發送到 PX4 控制器,控制無人機的執行器。

      • 系統集成

        • 整個系統包括 VIO、局部規劃器和控制器三個模塊,如圖 9(b) 所示。系統能夠實現從視覺輸入到軌跡生成和跟蹤的完整流程,確保無人機在復雜環境中進行高速飛行。

      實驗結果
      • 自然環境實驗

        • 長森林場景 :樹木間距為 5 米,目標點距離 60 米。實驗中,無人機從懸停狀態開始,沿著軌跡飛行,成功避開沿途障礙物,最大速度達到 7.5m/s。

        • 短森林場景 :樹木密集排列,間距為 2 米,目標點距離 30 米。為了測試無人機在更復雜環境中的飛行能力,將航路點生成時間縮短至 0.9 秒,無人機成功到達目標點,最大速度達到 8.8m/s。

        • 觀察現象 :盡管訓練數據集中的速度為 7m/s,但 IRL 訓練使策略能夠表現出加速和減速行為,甚至在接近障礙物時顯著降低速度以執行避障動作,這表明 IRL 方法能夠超越簡單模仿專家行為,有效捕捉避障意圖。

      • 城市環境實驗

        • 大塊障礙物場景 :障礙物幾何形狀簡單但體積較大。為了降低安全風險,將無人機速度降低至平均 6m/s。無人機成功從起點生成避障路徑并到達目的地,最大速度達到 6.5m/s。

        • 柱狀障礙物場景 :包含六個大型柱狀障礙物。無人機在飛行過程中減速以避開障礙物,然后再次加速,最終成功到達目的地,最大速度達到 6.2m/s。

        • 實驗結論 :盡管模型僅在仿真環境中訓練,但在真實世界場景中表現出良好的性能,與仿真環境相比幾乎沒有性能下降。實驗結果表明,模型在類似仿真設置的樹環境中部分彌合了仿真到現實的差距,并且在城市環境中能夠泛化到新的障礙物形狀,展現出對多樣化真實世界環境的適應能力。

      結論與未來工作
      • 結論

        • RAPID作為一種基于IRL的無人機視覺規劃器,在復雜環境中的高速視覺導航方面表現出色,通過整合視覺輸入和規劃,能夠實時生成無碰撞的航點,并在仿真和現實世界場景中均展現出優越的性能。

        • 盡管RAPID取得了良好的效果,但仍存在一些局限性,如缺乏時間感知能力導致在面對大型障礙物時容易陷入局部最小值;在探索過程中可能會生成不可行的軌跡,影響Q函數的收斂;專家數據集的不完整性可能導致模型在遇到遠離專家軌跡的狀態時無法找到解決方案;sim-to-real差距尚未完全彌合。

      • 未來工作

        • 將致力于解決這些限制,通過探索基于記憶的架構、采用基于約束的強化學習方法以及改進數據獲取策略,以實現更穩健、可擴展和高效的高速無人機導航學習。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      自律,C羅現在的身材與十年前幾乎沒什么區別

      自律,C羅現在的身材與十年前幾乎沒什么區別

      懂球帝
      2025-12-20 12:37:05
      迪麗熱巴“天使蹲”火出圈,顏值驚艷全網,醫生:無基礎者慎入

      迪麗熱巴“天使蹲”火出圈,顏值驚艷全網,醫生:無基礎者慎入

      悠悠說世界
      2025-12-21 08:34:39
      彈劾賴清德當天,5名大法官下場力挺,藍白震怒,大V:斗爭太慘烈

      彈劾賴清德當天,5名大法官下場力挺,藍白震怒,大V:斗爭太慘烈

      王姐懶人家常菜
      2025-12-20 16:38:37
      深度揭秘?|?“規劃女王”高楊,把自己“規劃”到了監獄——一個“技術官僚”的腐敗折疊

      深度揭秘?|?“規劃女王”高楊,把自己“規劃”到了監獄——一個“技術官僚”的腐敗折疊

      一分為三看人生
      2025-12-20 00:10:11
      白崇禧之子,一生無妻無兒,相伴38年高中同學死后,他公開性取向

      白崇禧之子,一生無妻無兒,相伴38年高中同學死后,他公開性取向

      墨說古今
      2025-12-16 23:10:42
      Anbernic安伯尼克RG477V掌機發布,可模擬Wii U、PS2游戲

      Anbernic安伯尼克RG477V掌機發布,可模擬Wii U、PS2游戲

      IT之家
      2025-12-21 09:44:48
      上海財大校長劉元春直言:不是老百姓不花錢,是錢沒到他們手上!

      上海財大校長劉元春直言:不是老百姓不花錢,是錢沒到他們手上!

      小濤叨叨
      2025-12-20 12:05:37
      石破茂的預言開始應驗,中方還沒有發力,日本企業就已經撐不住了

      石破茂的預言開始應驗,中方還沒有發力,日本企業就已經撐不住了

      來科點譜
      2025-12-21 08:57:41
      宗慶后再被曝猛料,魔爪伸向多名女員工,還有浙大高材生為他生子

      宗慶后再被曝猛料,魔爪伸向多名女員工,還有浙大高材生為他生子

      八斗小先生
      2025-07-17 15:12:37
      楊鳴:這賽季聯賽可能是歷史上最激烈的,末節很容易出現逆轉

      楊鳴:這賽季聯賽可能是歷史上最激烈的,末節很容易出現逆轉

      懂球帝
      2025-12-20 21:45:12
      到底是什么肉?消費者:必勝客實物牛排與菜單差距大,口感奇怪;暗訪發現…

      到底是什么肉?消費者:必勝客實物牛排與菜單差距大,口感奇怪;暗訪發現…

      上觀新聞
      2025-12-19 14:17:05
      我開了8年車,勸普通家庭別碰30萬級汽車,這些隱性成本真扛不住

      我開了8年車,勸普通家庭別碰30萬級汽車,這些隱性成本真扛不住

      李子櫥
      2025-12-20 16:48:52
      浙江金華一校花好漂亮 172cm 仙姿玉色貌美如花 絕世佳人不過如此

      浙江金華一校花好漂亮 172cm 仙姿玉色貌美如花 絕世佳人不過如此

      戶外小阿隋
      2025-12-20 11:01:02
      就在今天!12月21日凌晨,傳來全紅嬋、張家齊新消息

      就在今天!12月21日凌晨,傳來全紅嬋、張家齊新消息

      皮皮觀天下
      2025-12-21 05:04:19
      普京喊話呂特:“為何執意要跟我們打仗?”

      普京喊話呂特:“為何執意要跟我們打仗?”

      參考消息
      2025-12-20 21:25:31
      萬萬沒想到,釋永信全家被扒,原來他才是那個“冰山一角”!

      萬萬沒想到,釋永信全家被扒,原來他才是那個“冰山一角”!

      智慧生活筆記
      2025-12-21 08:58:19
      女留學生染指上千外國男子,拍成視頻走紅網絡,父母與她斷絕關系

      女留學生染指上千外國男子,拍成視頻走紅網絡,父母與她斷絕關系

      阿胡
      2024-06-16 11:06:11
      若人類全部滅絕,數億年后,地球上有可能再次進化出人類嗎?

      若人類全部滅絕,數億年后,地球上有可能再次進化出人類嗎?

      心中的麥田
      2025-12-19 20:24:22
      黃埔名將胡璉:晚年絕口不提粟裕,死前讓子孫拿紙筆畫下一幅地圖

      黃埔名將胡璉:晚年絕口不提粟裕,死前讓子孫拿紙筆畫下一幅地圖

      宅家伍菇涼
      2025-12-21 09:30:03
      官方辟謠深圳西站正式開工拆遷

      官方辟謠深圳西站正式開工拆遷

      黃河新聞網呂梁頻道
      2025-12-20 11:04:11
      2025-12-21 10:44:49
      算法與數學之美 incentive-icons
      算法與數學之美
      分享知識,交流思想
      5271文章數 64595關注度
      往期回顧 全部

      科技要聞

      生態適配已超95% 鴻蒙下一關:十萬個應用

      頭條要聞

      愛潑斯坦案最新文件公布 有記錄顯示來電人為特朗普

      頭條要聞

      愛潑斯坦案最新文件公布 有記錄顯示來電人為特朗普

      體育要聞

      我開了20年大巴,現在是一名西甲主帥

      娛樂要聞

      鹿晗關曉彤戀愛期間毫不避諱?

      財經要聞

      百年老店陷貼牌爭議 同仁堂必須作出取舍

      汽車要聞

      -30℃,標致508L&凡爾賽C5 X冰雪"大考"

      態度原創

      親子
      旅游
      健康
      本地
      軍事航空

      親子要聞

      斷奶后乳房萎縮,怎么辦? 斷奶后乳房萎縮,怎么辦?

      旅游要聞

      【外眼看云南】緬甸網紅沉浸式體驗傈僳族闊時節,在怒江邂逅“詩與遠方”

      這些新療法,讓化療不再那么痛苦

      本地新聞

      云游安徽|訪黃山云海古村,讀一城山水風骨

      軍事要聞

      澤連斯基:前線局勢愈發艱難

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 宁津县| 秋霞电影网| 四虎av| 高清无码18禁| 国产超碰人人爽人人做人人添| 亚洲精品无码中文| 中国极品少妇videossexhd| 我把护士日出水了视频90分钟 | 国产中年熟女高潮大集合| 定结县| 国产精自产拍久久久久久蜜| 极品少妇被后入内射视| 国产麻豆9l精品三级站| 2021最新国产精品网站| 国产第99页| 制服丝袜亚洲无码| 国产精品入口麻豆| 在线免费播放av观看| 香蕉视频在线国产| 饶河县| 风流老熟女一区二区三区| 狠狠爱无码一区二区三区| 亚洲一区二区乱码精品| 人人肏屄| 中文字幕在线亚洲精品| 亚洲熟妇丰满xxxxx| 亚洲熟妇色自偷自拍另类| 东丽区| 影音先锋男人站| 精品无码一区二区三区爱欲| va国产| 日韩人妻精品无码| 一区二区在线 | 欧洲| 野花香视频在线观看免费高清版| 99国产精品久久久久久久成人| 亚欧美国产色| 亚洲精品无码永久中文字幕| 久久久久青草线蕉亚洲| 富民县| 日本乱子人伦在线视频| 亚洲色欲在线播放一区二区三区|