![]()
在復雜、甚至是 GNSS(全球導航衛星系統)拒止的環境中,如何讓僅搭載單目相機的無人機實現精準、無漂移的自我與目標定位?
國防科技大學虛擬現實與視覺計算團隊(SAW Lab)聯合多所高校推出無人機實時地理定位系統「PiLoT」,首次實現僅依靠單目 RGB 序列即可在 GNSS 拒止環境下完成無人機 6-DoF 位姿及任意目標的實時、無漂移地理定位。PiLoT 在嵌入式平臺(如 NVIDIA Jetson Orin)上即可達到 25 FPS 的高性能,在復雜真實場景下的定位精度與魯棒性均達到當前最先進水平,成功解決了大規模場景下跨視角匹配與零樣本泛化的難題。該研究成果被 CVPR 2026 接收為 Highlight 論文。
![]()
PiLoT 在10km飛行軌跡中的實時無漂移表現。畫面主視圖展示了無人機在基于實景三維模型構建的數字孿生場景中的飛行軌跡,PiLoT系統解算的實時軌跡(ES_TRACK,綠色光帶)與RTK記錄的真值航跡(GT_TRACK,粉色光帶)高度重合,直觀呈現了系統在復雜地理環境下的航跡定位效果。左下角小窗口“Query view”為無人機捕獲的實時視頻流,“Render view”則是系統根據當前位姿估計值從三維地圖中同步渲染生成的地理參考視圖,記錄了從傍晚到入夜的劇烈光照變化過程。在長達13分鐘、航程超過10公里的飛行測試中,PiLoT維持了1.374米的均值定位誤差,并保持25~30 FPS的實時推理速度。
![]()
- 論文標題:PiLoT: Neural Pixel-to-3D Registration for UAV-based Ego and Target Geo-localization
- 收錄會議:CVPR 2026 Highlight
- 所屬機構:國防科技大學,浙江大學,西湖大學,杭州電子科技大學
- 論文鏈接:https://arxiv.org/abs/2603.20778
- 項目主頁:https://nudt-sawlab.github.io/PiLoT/
研究動機:無人機定位如何擺脫 GNSS 依賴?
怎樣的無人機地理定位系統才算理想?通常而言,它至少需要滿足三個核心標準:
- 全局高精度(Drift-free): 能夠有效克服傳統里程計在長距離、大范圍飛行中的累積誤差,實現無漂移的一致與精準;
- 全天時高魯棒(Long-term): 面對跨時段的光照劇變,以及劇烈機動帶來的運動模糊與大視角變化,系統依然能穩定追蹤不崩潰;
- 低算力與載荷門檻(Real-time): 滿足嚴苛的 SWaP(體積 / 重量 / 功耗)限制,無需掛載重型傳感器,在受限的邊緣平臺(如 Jetson)實時運行。
當前的無人機地理定位技術,無論是用于自主導航還是對地目標偵察,大多遵循一套約定俗成的系統架構:先依靠視覺里程計(VIO)和衛星信號(GNSS)算好自身位置,再掛載一臺激光測距儀去反推地面目標的坐標。這種架構存在兩個弱點:前者高度依賴外部信號,后者則極度依賴重型主動載荷。
直覺告訴我們,這或許并非最佳解法:既然無人機搭載了視覺傳感器,如果我們擁有一張已知的三維地圖,它能否像人類一樣,直接實現 “看圖認路”?可否擺脫對 GNSS 的依賴,實現真正無漂移的無人機視頻定位?為了回答這一問題,國防科技大學 SAW Lab 團隊將目光投向了像素級的 3D 配準,試圖從純視覺視角尋找答案。
核心洞察與解決方案:PiLoT
回看傳統的 VIO 系統,它主要通過比較前后兩幀圖像來計算相對位移。這類似于航位推算,飛行距離越遠,微小的測量誤差累積得就越多。
研究團隊的思路是弱化相對觀測,直接建立絕對錨點。通過將每幀 2D 視頻像素直接映射到帶有絕對坐標的 3D 地理模型上,切斷誤差的累加路徑。這引出了 PiLoT 框架的核心理念:將無人機自定位與目標定位統一重構為像素到 3D 的配準問題。只要將實時畫面與三維世界精準對齊,相機的六自由度位姿以及目標的真實地理坐標便能作為聯合解自然得出。
理論表明,通過實時畫面匹配 3D 地圖可以獲得無漂移的絕對坐標。但要讓這一框架真正滿足低算力門檻與全天時魯棒性,在方法設計上還面臨兩個核心的技術挑戰:
第一,算力如何高效分配?建立 2D 像素到 3D 大規模場景的密集對應關系,意味著地圖渲染與特征匹配將消耗巨大的計算資源。若采用 “渲染一幀、定位一幀” 的串行處理模式,輕量級機載平臺顯然無法滿足無人機的實時控制需求。如何設計高效的計算流分配與異步調度機制,是該框架必須跨越的計算瓶頸;
第二是深度網絡如何學習幾何本質?當前主流的視覺匹配模型多基于地面或室內數據集訓練。然而,真實的無人機作業環境極其復雜,不僅存在高空俯視的視角與尺度劇變,還伴隨著跨時段的光照與天氣干擾。這種從地面到復雜高空的跨度,產生了巨大的域鴻溝(Domain Gap)。面對這種差異,現有模型極易暴露紋理偏置的軟肋,它們傾向于過擬合地面訓練集中特定的表觀紋理,一旦遭遇無人機視角的切換與環境外觀的改變,原先依賴的特征就會失效,導致定位魯棒性大幅下降。因此,如何克服這種偏置,獲取一個無懼真實環境干擾的無人機專屬特征提取器,便是跨越域鴻溝的關鍵。
從基于 3D 配準的理論重構,到跨越算力與域鴻溝的雙重危機,PiLoT 框架給出了一套優雅的解法。具體而言,其系統架構與方法設計包含以下三大核心創新:
1. 渲染 - 定位雙線程解耦:突破線性時序瓶頸
為了打破線性時序瓶頸,PiLoT 摒棄了逐幀渲染、逐幀定位的低效串行模式。研究團隊通過將渲染與定位解耦,構建了兩個高并發的獨立線程。其中,渲染線程負責在后臺動態生成帶有地理參考的合成視圖,而定位線程則專注于在特征空間內將實時視頻流與合成視圖進行快速配準。這種雙線程架構不僅確保了每次定位查詢都能獲得動態更新的地理錨點約束,還在顯著提升系統吞吐量的同時,實現了真正意義上的無漂移連續定位。
![]()
PiLoT 雙線程解耦框架原理圖
2. 百萬級全球尺度合成數據集:賦能零樣本泛化
為了獲取無懼環境干擾的泛化特征,PiLoT 直面核心痛點:即填補無人機領域精確幾何真值訓練數據的空白。研究團隊基于 AirSim、Cesium 和 Unreal 引擎,構建了一個百萬級規模的全球尺度合成數據集。該數據集不僅涵蓋了極其豐富的氣象與光照條件,還提供了絕對像素深度和高精度的六自由度位姿真值。這種強大的幾何監督機制,成功迫使輕量級網絡專注于學習底層的三維幾何結構,而不是單純擬合特定的場景外觀。憑借這一數據驅動策略,PiLoT 有效跨越了合成與真實的界限,在完全未見過的真實世界場景中,依然展現出優異的零樣本泛化能力。
![]()
PiLoT百萬級全球尺度合成數據集。圖(a)展示了在Cesium 3D Tiles全球地圖上軌跡覆蓋區域,以及生成的真實無人機飛行軌跡。圖(b)涵蓋了多樣化的環境模擬,包括多種天氣、光照條件以及大幅度旋轉和平移的視角變化。圖(c)強調了我們數據集的幾何一致性監督,通過絕對像素級深度進行嚴苛的重投影驗證,確保特征學習穩定的3D幾何結構。圖(d)呈現了我們算法在真實場景上零樣本泛化表現,Query為實拍夜晚查詢圖,Reference為同一視角畫面,下方為輸出特征金字塔對比效果。
3. 極致效能的 Pixel-to-3D 配準框架
在特征提取與配準機制上,PiLoT 專門針對無人機平臺的資源限制進行了深度優化。系統采用了輕量化的 MobileOne-Unet 架構,在確保邊緣端推理實時性的前提下,利用自建合成數據集的幾何監督訓練,提取出在晝夜交替、光影劇變等復雜環境下依然穩健的判別性特征。
與傳統方法渲染多個視角提供參考不同,PiLoT 引入了一套高效的 “一對多” 配準模式:僅通過渲染單個參考視圖提供地理錨點,并結合多位姿假設來擴大搜索空間。這種在單一特征空間內完成投影匹配的方式,大幅降低了渲染開銷,實現了計算資源的高效利用。
針對無人機飛行過程中的高機動性,優化器引入了旋轉感知采樣機制。考慮到無人機平移量對偏航(Yaw)和俯仰(Pitch)動作極度敏感,系統通過各向異性采樣,在對應軸向上針對性地擴大了搜索范圍。這一設計有效應對了高達 10 米位移與 10 度偏航的劇烈幀間運動,克服了傳統優化器易陷入局部最優的局限性。
在最終的位姿解算階段,優化過程在多尺度特征金字塔上展開,遵循由粗到精的策略逐步收縮搜索空間。為突破顯存讀寫瓶頸,團隊設計了定制化的 CUDA 算子,通過并行加速的 LM 優化迭代實現了30 倍的計算加速,引導位姿平滑、快速地收斂至全局最優解。
![]()
PiLoT 整體算法框架
實驗結果與分析
為了驗證系統性能,研究團隊將 PiLoT 與兩類具有代表性的定位方法進行了全面對比。第一類是混合定位方法,如結合了 ORB-SLAM3 的 Render2ORB,以及基于 RAFT 光流追蹤的 Render2RAFT,這兩者均采用 1Hz 的絕對位姿模塊進行定期校正;第二類是逐幀絕對定位方法,包括每一幀獨立對齊參考視圖并采用特征對齊求解位姿的 PixLoc,以及基于渲染 - 對比框架的 Render2Loc。在對比實驗中,研究團隊為 Render2Loc 集成了 LoFTR、EfficientLoFTR、RoMaV2 以及專門針對航空視覺優化的 Aerial-MASt3R 等四種 SoTA 匹配器。
1.無人機定位精度:PiLoT 在 SynthCity-6、UAVScenes 及 UAVD4L-2yr 三大基準測試中,憑借 28FPS 的卓越實時性與米級的定位精度,全面超越了所有混合定位與絕對定位基準模型。
![]()
無人機自定位精度對比
![]()
PiLoT 在高機動飛行條件下的無漂移表現
2.動態目標定位:得益于精準的無人機自定位,PiLoT 通過射線投射(Ray Tracing)解算得到極高精度的 3D 目標定位,軌跡與 RTK 真值高度貼合。
![]()
![]()
PiLoT 動態目標指示展示(場景一)
![]()
PiLoT 動態目標指示展示(場景二)
總結與思考
PiLoT 讓無人機真正學會了 “看圖認路” 與 “目標鎖位”。它的成功以及未來的演進方向,為我們帶來了以下三個核心啟發:
1.破除累積誤差,實現真正的無漂移:將實時視頻流與帶有地理參考的 3D 地圖直接對齊,可以有效擺脫對外部脆弱 GNSS 信號和昂貴主動傳感器的依賴。這一范式轉換為復雜、拒止環境下的無人機自主導航提供了全新解法。
2.Data-Centric AI:在垂直領域真實數據匱乏時,高質量的仿真合成數據結合嚴格的底層幾何約束,能夠有效賦予模型在未見過的真實世界中零樣本泛化的能力。
3.探索更輕量的地圖表征:目前的高保真定位一定程度上依賴于 3D Mesh 模型。為了進一步打破地圖獲取的限制,團隊后續會繼續研究支持更輕量的通用地圖表征(如 DOM 數字正射影像圖和 DEM 數字高程模型等),推動該技術在更廣闊的荒野與城市場景中實現大規模落地。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.