網易首頁 > 網易號 > 正文申請入駐

SkyDreamer-端到端視覺無人機競速的模型強化學習方法

2025-10-20 20:07:47　來源: 算法與數學之美

北京舉報

分享至

文章來源：鼓搗AI。

一、研究動機現有方法的局限性

盡管自主無人機競速(ADR)已達到冠軍級水平，但存在三大核心問題：

1.高度專用化：依賴門角檢測、PnP算法、精確的相機標定和手工調參的卡爾曼濾波器
2.泛化能力差：無法適應未知賽道、不同無人機或非結構化環境
3.端到端視覺方法的缺陷：

? 現有方法都需要外部輔助（如動作捕捉系統）
?無法機載運行
?未達到冠軍級性能（加速度僅2-2.7g）

關鍵挑戰

挑戰

視覺現實差距

仿真圖像與真實圖像差異大

視覺歧義

相似場景需要不同飛行路徑

可解釋性

端到端黑盒模型難以調試

相機標定

外參標定耗時且易變化

論文鏈接：https://arxiv.org/pdf/2510.14783v1.pdf

? 頂部圖片：真實飛行場景，展示MAVLab門和飛行軌跡
? 底部左圖：使用的競速無人機（與A2RL x DCL 2025比賽相同）
? 底部右圖：機載相機拍攝的圖像，紅色區域為GateNet生成的分割掩碼

二、核心方法 2.1 整體架構：基于Informed Dreamer

SkyDreamer的核心思想是將模型強化學習與特權信息（privileged information）巧妙結合。它基于DreamerV3的模型強化學習框架構建，但做了關鍵擴展：讓世界模型不僅預測未來，還要解碼出那些只在訓練時可用的"特權信息"——包括精確的位置、速度、姿態角，以及相機外參和無人機動力學參數。這個設計看似簡單，卻帶來了革命性的變化：世界模型不再是一個純粹的黑盒預測器，而是變成了一個隱式的狀態和參數估計器。

觀察 → 編碼器 → 隱藏狀態 → 解碼器 → 特權信息

標準DreamerV3

? 彩色方塊：編碼器輸入（觀察）
? enc：編碼器
? dec：解碼器
? zt：離散潛在表示
? ht：隱藏狀態
? at：動作
? 紫色箭頭：序列模型的時序連接

關鍵組件：

1.世界模型（World Model）

?編碼器: 將分割掩碼、IMU、電機轉速編碼為離散表示zt
?序列模型: GRU預測下一隱藏狀態h_{t+1}
?動態預測器: 純粹從ht預測?t（用于想象rollout）
?解碼器: 從(ht, zt)解碼出真實狀態和參數

SkyDreamer世界模型學習

? 齒輪+相機圖標：特權信息解碼輸出
? dyn：動態預測器

2.Actor-Critic

? Actor直接輸出電機命令（非集體推力+姿態速率）
? 添加平滑正則化防止bang-bang控制

SkyDreamer Actor-Critic學習

? 想象rollout：僅使用動態預測器，無環境反饋

2.3 關鍵技術創新 ① 飛行計劃向量（Flight Plan Vector）

解決視覺歧義問題：

f_i = [     p_g^i - p_g^{i-1},  # 相對位置差     ψ_g^i - ψ_g^{i-1},  # 相對偏航角     p_g^i, ψ_g^i,       # 絕對位置和偏航     ...,                 # 未來3個門的信息     p_g^{i+2}, ψ_g^{i+2} ]

觸發條件：當估計的門相對位置x?_g > -0.15m時更新門索引

② 視覺增強（Visual Augmentation）

StochGAN + 數據增強：

1.CycleGAN變體：將理想分割掩碼轉換為真實質量掩碼
2.隨機腐蝕：50%概率腐蝕1像素模擬掩碼變薄

3.滾動快門模擬：

A = [1,  -s·r_c,  W/2·s·r_c  ]     [0, 1+s·q_c, -H/2·s·q_c ]

模擬水平剪切和垂直縮放

③ 相機內參標準化 + 外參估計

?內參標定：所有圖像映射到固定針孔模型
?外參在線估計：世界模型解碼相機俯仰角、橫滾角、偏航角

核心公式：

K = [25W/64,    0,     0.5W ]     [   0,   25H/64,  0.5H ]     [   0,      0,      1   ]

三、實驗結果與分析 3.1 性能表現仿真實驗（梯子倒環賽道）

指標

數值

最高速度

13 m/s

最大加速度

6 g

飛行區域

6×4 m

位置估計誤差

±10-15 cm

速度估計誤差

±0.5 m/s

仿真梯子倒環賽道

左圖（俯視圖）

? 黑色線：ground truth軌跡
? 彩色線：SkyDreamer估計的位置和速度
? 顏色編碼：速度大小（紫色2m/s → 黃色12m/s）
? 黑色方塊：門位置（厚度夸張顯示）
? 黑色箭頭：相機主軸方向

右圖（側視圖 + 3D渲染）

? 彩色軌跡：ground truth位置和速度
? 顏色條：速度刻度（0-12 m/s）

真實世界實驗

賽道

成功率

平均圈速

最高速度

最大加速度

倒環(橙色門)

100% (25/25圈)

3.25±0.22s

13 m/s

6 g

梯子倒環

100% (25/25圈)

3.62±0.06s

6 g

倒環(MAVLab門)

100% (25/25圈)

2.97±0.08s

大賽道

83% (10/12圈)

21 m/s

6 g

真實世界倒環賽道（橙色門）

左側軌跡圖

? 黑色線：MoCap ground truth
? 彩色線：SkyDreamer估計
? 顏色編碼：速度（紫色2m/s → 黃色12m/s）
? 黑色方塊：門位置（厚度夸張）
? 黑色箭頭：相機主軸方向

右側合成圖

? 多條疊加軌跡：5圈飛行的疊加
? 展示軌跡在門中心的匯聚

3.2 核心能力驗證 ① 參數估計能力

成功估計的參數：

? ? 最大電機轉速ω_max（收斂快，誤差小）
? ? 推力系數k_w
? ? 電機響應時間τ
? ? 相機外參θ_c, φ_c, ψ_c（±1°）

難以估計的參數：

? ? 阻力系數k_x
? ?? 單個螺旋槳響應k_{p1}, k_{q1}（有漂移）

② 電池耗盡魯棒性

實驗場景：電池從滿電到30%放電

? 最大轉速下降：3200 → 2200 rad/s（降低30%，超出訓練范圍±20%）
?結果：SkyDreamer實時檢測并調整飛行路徑，仍完成所有圈數

③ 視覺Sim-to-Real Transfer

MAVLab門實驗：

? 分割質量差：門邊緣不完整、背景誤檢、形狀圓潤
?結果：仍100%完成25圈，證明對感知噪聲魯棒

3.3 對比分析

方法

機載運行

Sim-to-Real

冠軍級性能

可解釋性

Kaufmann等[1]

? (6g)

Geles等[4]

? (2g)

Xing等[5]

? (HIL)

? (2.7 TWR)

Romero等[6]

? (HIL)

Krinner等[7]

? (HIL)

SkyDreamer

? (6g)

四、技術細節 4.1 訓練設置

三階段訓練（1700萬步，約50小時）：

1.預熱階段（0-800萬步）：默認DreamerV3設置
2.長序列階段（800-1300萬步）：batch length從64→256
3.精調階段（1300-1700萬步）：降低熵系數和學習率

關鍵超參數：

γ = 0.997          # 折扣因子 λ_smooth = 0.002   # 平滑正則化系數 control_freq = 90 Hz image_size = 64×64

4.2 獎勵函數

r_t = 5·r_prog - r_rate + 30·r_gate r_prog = ||p_{t-1,g}||_2 - ||p_{t,g}||_2  # 進度獎勵 r_rate = exp(min(||Ω_t||_1, 17))/2·f_c·10^5  # 角速度懲罰 r_gate = 1 - max(|y_g|, |z_g|)/d_g  # 穿門獎勵（中心最大）

無感知獎勵：相機自然朝向門（涌現行為）

五、結論與啟示主要貢獻

1.首個端到端視覺→電機命令的ADR策略
2.首次達到冠軍級性能（6g加速度，21 m/s速度）
3.首次實現全機載、無外部輔助的端到端視覺ADR
4. 通過解碼特權信息實現可解釋性
5. 無需外參標定，可快速部署到不同無人機

局限性

1. ?? 參數估計存在漂移
2. ?? 狀態估計有高頻跳變
3. ?? 對分割假陽性仍敏感
4. ?? 訓練成本高（50小時）

未來方向

? 擴展到深度圖等更通用視覺輸入
? 飛行未見賽道
? 泛化到非結構化環境
? 結合障礙物避讓的混合任務

關鍵洞察

"通過讓世界模型解碼特權信息，我們將黑盒端到端策略轉變為隱式狀態和參數估計器，在保持端到端學習優勢的同時獲得了可解釋性。"

這項工作證明了模型強化學習 + 特權信息解碼是實現高性能、可解釋、魯棒的端到端視覺機器人控制的有效范式。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.