文章來源:鼓搗AI。
一、研究動機 現有方法的局限性
盡管自主無人機競速(ADR)已達到冠軍級水平,但存在三大核心問題:
1.高度專用化:依賴門角檢測、PnP算法、精確的相機標定和手工調參的卡爾曼濾波器
2.泛化能力差:無法適應未知賽道、不同無人機或非結構化環境
3.端到端視覺方法的缺陷:
? 現有方法都需要外部輔助(如動作捕捉系統)
?無法機載運行
?未達到冠軍級性能(加速度僅2-2.7g)
挑戰
視覺現實差距
仿真圖像與真實圖像差異大
視覺歧義
相似場景需要不同飛行路徑
可解釋性
端到端黑盒模型難以調試
相機標定
外參標定耗時且易變化
論文鏈接:https://arxiv.org/pdf/2510.14783v1.pdf
![]()
? 頂部圖片:真實飛行場景,展示MAVLab門和飛行軌跡
? 底部左圖:使用的競速無人機(與A2RL x DCL 2025比賽相同)
? 底部右圖:機載相機拍攝的圖像,紅色區域為GateNet生成的分割掩碼
SkyDreamer的核心思想是將模型強化學習與特權信息(privileged information)巧妙結合。它基于DreamerV3的模型強化學習框架構建,但做了關鍵擴展:讓世界模型不僅預測未來,還要解碼出那些只在訓練時可用的"特權信息"——包括精確的位置、速度、姿態角,以及相機外參和無人機動力學參數。這個設計看似簡單,卻帶來了革命性的變化:世界模型不再是一個純粹的黑盒預測器,而是變成了一個隱式的狀態和參數估計器。
觀察 → 編碼器 → 隱藏狀態 → 解碼器 → 特權信息? 彩色方塊:編碼器輸入(觀察)
? enc:編碼器
? dec:解碼器
? zt:離散潛在表示
? ht:隱藏狀態
? at:動作
? 紫色箭頭:序列模型的時序連接
關鍵組件:
1.世界模型(World Model)
?編碼器: 將分割掩碼、IMU、電機轉速編碼為離散表示
zt?序列模型: GRU預測下一隱藏狀態
h_{t+1}?動態預測器: 純粹從
ht預測?t(用于想象rollout)?解碼器: 從
(ht, zt)解碼出真實狀態和參數
? 齒輪+相機圖標:特權信息解碼輸出
? dyn:動態預測器
2.Actor-Critic
? Actor直接輸出電機命令(非集體推力+姿態速率)
? 添加平滑正則化防止bang-bang控制
? 想象rollout:僅使用動態預測器,無環境反饋
解決視覺歧義問題:
f_i = [ p_g^i - p_g^{i-1}, # 相對位置差 ψ_g^i - ψ_g^{i-1}, # 相對偏航角 p_g^i, ψ_g^i, # 絕對位置和偏航 ..., # 未來3個門的信息 p_g^{i+2}, ψ_g^{i+2} ]觸發條件:當估計的門相對位置x?_g > -0.15m時更新門索引
② 視覺增強(Visual Augmentation)
StochGAN + 數據增強:
1.CycleGAN變體:將理想分割掩碼轉換為真實質量掩碼
2.隨機腐蝕:50%概率腐蝕1像素模擬掩碼變薄
3.滾動快門模擬:
A = [1, -s·r_c, W/2·s·r_c ] [0, 1+s·q_c, -H/2·s·q_c ]模擬水平剪切和垂直縮放
?內參標定:所有圖像映射到固定針孔模型
?外參在線估計:世界模型解碼相機俯仰角、橫滾角、偏航角
核心公式:
K = [25W/64, 0, 0.5W ] [ 0, 25H/64, 0.5H ] [ 0, 0, 1 ]三、實驗結果與分析 3.1 性能表現 仿真實驗(梯子倒環賽道)指標
數值
最高速度
13 m/s
最大加速度
6 g
飛行區域
6×4 m
位置估計誤差
±10-15 cm
速度估計誤差
±0.5 m/s
![]()
仿真梯子倒環賽道
左圖(俯視圖)
? 黑色線:ground truth軌跡
? 彩色線:SkyDreamer估計的位置和速度
? 顏色編碼:速度大小(紫色2m/s → 黃色12m/s)
? 黑色方塊:門位置(厚度夸張顯示)
? 黑色箭頭:相機主軸方向
右圖(側視圖 + 3D渲染)
? 彩色軌跡:ground truth位置和速度
? 顏色條:速度刻度(0-12 m/s)
賽道
成功率
平均圈速
最高速度
最大加速度
倒環(橙色門)
100% (25/25圈)
3.25±0.22s
13 m/s
6 g
梯子倒環
100% (25/25圈)
3.62±0.06s
6 g
倒環(MAVLab門)
100% (25/25圈)
2.97±0.08s
大賽道
83% (10/12圈)
21 m/s
6 g
![]()
真實世界倒環賽道(橙色門)
左側軌跡圖
? 黑色線:MoCap ground truth
? 彩色線:SkyDreamer估計
? 顏色編碼:速度(紫色2m/s → 黃色12m/s)
? 黑色方塊:門位置(厚度夸張)
? 黑色箭頭:相機主軸方向
右側合成圖
? 多條疊加軌跡:5圈飛行的疊加
? 展示軌跡在門中心的匯聚
成功估計的參數:
? ? 最大電機轉速
ω_max(收斂快,誤差小)? ? 推力系數
k_w? ? 電機響應時間
τ? ? 相機外參
θ_c, φ_c, ψ_c(±1°)
難以估計的參數:
? ? 阻力系數
k_x? ?? 單個螺旋槳響應
k_{p1}, k_{q1}(有漂移)
實驗場景:電池從滿電到30%放電
? 最大轉速下降:3200 → 2200 rad/s(降低30%,超出訓練范圍±20%)
?結果:SkyDreamer實時檢測并調整飛行路徑,仍完成所有圈數
MAVLab門實驗:
? 分割質量差:門邊緣不完整、背景誤檢、形狀圓潤
?結果:仍100%完成25圈,證明對感知噪聲魯棒
方法
機載運行
Sim-to-Real
冠軍級性能
可解釋性
Kaufmann等[1]
? (6g)
Geles等[4]
? (2g)
Xing等[5]
? (HIL)
? (2.7 TWR)
Romero等[6]
? (HIL)
??
Krinner等[7]
? (HIL)
SkyDreamer
? (6g)
四、技術細節 4.1 訓練設置
三階段訓練(1700萬步,約50小時):
1.預熱階段(0-800萬步):默認DreamerV3設置
2.長序列階段(800-1300萬步):batch length從64→256
3.精調階段(1300-1700萬步):降低熵系數和學習率
關鍵超參數:
γ = 0.997 # 折扣因子 λ_smooth = 0.002 # 平滑正則化系數 control_freq = 90 Hz image_size = 64×644.2 獎勵函數r_t = 5·r_prog - r_rate + 30·r_gate r_prog = ||p_{t-1,g}||_2 - ||p_{t,g}||_2 # 進度獎勵 r_rate = exp(min(||Ω_t||_1, 17))/2·f_c·10^5 # 角速度懲罰 r_gate = 1 - max(|y_g|, |z_g|)/d_g # 穿門獎勵(中心最大)無感知獎勵:相機自然朝向門(涌現行為)
五、結論與啟示 主要貢獻
1.首個端到端視覺→電機命令的ADR策略
2.首次達到冠軍級性能(6g加速度,21 m/s速度)
3.首次實現全機載、無外部輔助的端到端視覺ADR
4. 通過解碼特權信息實現可解釋性
5. 無需外參標定,可快速部署到不同無人機
1. ?? 參數估計存在漂移
2. ?? 狀態估計有高頻跳變
3. ?? 對分割假陽性仍敏感
4. ?? 訓練成本高(50小時)
? 擴展到深度圖等更通用視覺輸入
? 飛行未見賽道
? 泛化到非結構化環境
? 結合障礙物避讓的混合任務
"通過讓世界模型解碼特權信息,我們將黑盒端到端策略轉變為隱式狀態和參數估計器,在保持端到端學習優勢的同時獲得了可解釋性。"
這項工作證明了模型強化學習 + 特權信息解碼是實現高性能、可解釋、魯棒的端到端視覺機器人控制的有效范式。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.