![]()
VLA 模型正被越來越多地應用于端到端自動駕駛系統中。然而,VLA 模型中冗長的視覺 token 極大地增加了計算成本。但現有的視覺 token 剪枝方法都不是專為自動駕駛設計的,在自動駕駛場景中都具有局限性。
小鵬汽車聯合北京大學計算機科學學院多媒體信息處理國家重點實驗室發表論文《FastDriveVLA》,不僅為自動駕駛 VLA 模型中的高效視覺 token 剪枝建立了新的范式,也為特定任務的剪枝策略提供了有價值的洞察。
受人類駕駛員主要關注前景區域而非背景區域的啟發,研究團隊做出假設:對于自動駕駛而言,與前景信息相關的視覺 token 比與背景內容相關的視覺 token 更有價值。為了驗證這個假設,研究團隊構建了大規模自動駕駛標注數據集nuScenes-FG(包含來自 6 個攝像頭視角的、帶有前景區域標注的 24.1 萬個圖像 - 掩碼對),通過 MAE 風格的像素重建策略和新穎的對抗性前景 - 背景重建策略,訓練出了一個適用于不同 VLA 模型的、可以即插即用的視覺 token 剪枝器 ReconPruner
實驗結果顯示,在不同剪枝比例下,FastDriveVLA 在 nuScenes 開環規劃基準測試中均取得了 SOTA 性能。FastDriveVLA 也非常高效,當視覺 token 數量從 3249 減少至 812 時,FastDriveVLA 的 FLOPs 直降約 7.5 倍;在 CUDA 推理延遲方面,FastDriveVLA 將預填充(prefill)時間減少了 3.7 倍、將解碼(decode)時間減少了 1.3 倍,顯著提升了推理效率。
該篇論文被 AAAI 2026 錄用。
![]()
- 論文標題:FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning
- 論文鏈接:https://arxiv.org/pdf/2507.23318
研究背景與問題
端到端自動駕駛最近展現出巨大潛力,有望徹底改變未來的交通系統。與傳統的模塊化自動駕駛系統不同,端到端方法在一個統一的框架中學習整個駕駛流程,這種設計不僅減少了模塊之間信息傳遞時的誤差,還增強了系統的簡潔性。
然而,現有的 VLA 模型通常將視覺輸入轉換為大量的視覺 token,這種方法導致了巨大的計算開銷和推理延遲的增加,對真實場景的車端部署提出了重大挑戰,因為計算資源和推理速度都受到嚴重限制。
已經有大量研究嘗試通過減少視覺 token 來加速 VLM 的推理,但在自動駕駛場景中都具有局限性:引入新設計的多模態投影器需要重新訓練整個模型,基于注意力的剪枝策略容易受到無關信息的影響,基于相似性的剪枝策略會錯誤保留與駕駛無關的信息。
為了解決這些挑戰,我們專為端到端自動駕駛 VLA 模型定制了一個新型的、基于重建的視覺 token 剪枝框架 FastDriveVLA。
![]()
圖 1:不同視覺 token 剪枝策略的對比,(c)為基于重建的剪枝策略
方法與創新
nuScenes-FG 數據集
受人類駕駛員主要關注前景區域而非背景區域的啟發,我們首先對自動駕駛場景中的「前景區域」進行了明確定義。這些區域包括行人、道路、車輛、交通標志(含交通信號燈)以及交通障礙物(如位于車道上或緊鄰車道的障礙物)等對駕駛決策具有直接影響的元素。相比之下,建筑物、天空、行道樹等背景區域即使被完全遮擋,通常也不會顯著影響人類駕駛員的判斷。然后,借助 Grounded-SAM 對 nuScenes 場景進行細粒度、語義一致的前景分割,構建了 nuScenes-FG 數據集。
![]()
圖 2:nuScenes-FG 數據集,為 nuScenes 場景提供了 24.1 萬個前景分割標注。
基于重建的剪枝器 ReconPruner
我們提出了一種輕量級的、可即插即用的剪枝器 ReconPruner,主要目標是讓 ReconPruner 能夠有效識別并選擇包含有意義前景信息的視覺 token,因此借鑒 Masked Image Modeling(掩碼圖像建模)方法設計了 MAE 風格的像素重建策略。在訓練過程中,我們選取 ReconPruner 預測的可獲得高分的視覺 token 子集,用于掩碼前景重建。該子集上的重建誤差作為監督信號,鼓勵 ReconPruner 為真正對應前景內容的視覺 token 打高分。
![]()
圖 3:FastDriveVLA 框架。在訓練階段,提出了一種新穎的「前景 - 背景對抗重建」策略,以增強 ReconPruner 對前景視覺 token 的感知能力;在推理階段,ReconPruner 可直接嵌入自動駕駛 VLA 模型,用于 token 剪枝。
對抗性前景 - 背景重建策略
但若僅僅依賴前景重建,ReconPruner 可能會采取捷徑,不加區分地為所有視覺 token 打高分。我們從生成對抗網絡(GANs)中汲取靈感,提出了對抗性前景 - 背景重建策略。具體來說,ReconPruner 還需要使用獲得低分的視覺 token 來重建背景區域。這種對抗性設置增強了 ReconPruner 區分前景 token 和背景 token 的能力。
實驗結果
實驗設置
我們采用 Impromptu-VLA 作為視覺 token 剪枝的基礎模型,在專為城區自動駕駛設計的大規模基準測試數據集 nuScenes 上對不同剪枝方法進行了評估。nuScenes 數據集包含 1000 個駕駛場景、每個場景約持續 20 秒。測試時,我們總計使用了 6019 個測試樣本,并通過 L2 軌跡誤差、碰撞率、路外率三個指標來評估開環規劃的性能。
我們使用余弦調度器以 2e-5 的學習率訓練 FastDriveVLA,總計進行了 10 輪訓練,僅在兩塊 H800 GPU 上運行 3 小時就完成了訓練。
不同剪枝方法在 nuScenes 數據集上的對比
![]()
FastV、SparseVLM 是基于注意力的基線,DivPrune、VisPruner 是基于相似性的基線。
- 當剪枝 25% 時,FastDriveVLA 在所有評估指標上均表現最佳,尤其在 L2 軌跡誤差和碰撞指標上分別比未剪枝的原始模型低了 0.1% 和 1.0%,這證明了聚焦于與前景相關的視覺 token 是提升自動駕駛性能的關鍵。
- 當剪枝 50% 時,FastDriveVLA 在碰撞指標上的表現優于剪枝 25%。
- 當剪枝 75% 時,FastDriveVLA 在路外率指標上的表現優于剪枝 50%。
總體來看,FastDriveVLA 在各種剪枝比例下均優于現有方法。特別值得注意的是,當剪枝 50% 時,FastDriveVLA 在所有指標上的表現都更加均衡。因此,我們建議,在實際部署自動駕駛系統時采用 50% 這一剪枝比例,以實現性能與效率的最佳平衡。
效率分析
為了展示 FastDriveVLA 的高效,我們從 FLOPs 與 CUDA 延遲的角度對不同剪枝方法進行了效率分析。當視覺 token 數量從 3249 減少至 812 時,FastDriveVLA 的 FLOPs 直降約 7.5 倍。在 CUDA 推理延遲方面,FastDriveVLA 將預填充提速 3.7 倍、解碼提速 1.3 倍,實際推理效率顯著提升。
![]()
定性可視化分析
ReconPruner 幾乎完整留下了前景 token ,把背景壓成極稀疏的色塊,重建畫面依舊清晰,證明它能在減少 token 冗余的同時保留關鍵信息,如圖 4 所示。
再把 FastV(基于注意力)、DivPrune(基于相似性)和 FastDriveVLA 放到圖 5 中進行對比,可以看到:我們的點密密麻麻落在車道、車道線和車身;FastV 幾乎漏掉了車輛;DivPrune 雖然撒點更多,卻幾乎沒往車道線上靠。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.