當你開車行駛在城市街道上,眼睛會自動忽略路邊的廣告牌、遠處的高樓和天空中的云彩,而把注意力集中在前方的車輛、行人、紅綠燈和車道線上。這種人類與生俱來的"選擇性注意"能力,恰恰是目前自動駕駛AI最欠缺的技能之一。
![]()
來自北京大學多媒體信息處理國家重點實驗室和小鵬汽車的研究團隊發布了一項重要研究成果,提出了一種名為FastDriveVLA的創新框架,讓自動駕駛AI能夠像人類司機一樣,學會在紛繁復雜的道路場景中快速識別并聚焦于真正重要的視覺信息。
![]()
這項研究的核心突破在于:通過一種巧妙的"圖像重建"訓練方法,研究團隊開發出了一個極其輕量級的"視覺篩選器",它能夠像經驗豐富的老司機一樣,在看到道路畫面的瞬間就判斷出哪些信息值得關注、哪些可以忽略。更重要的是,這個篩選器一旦訓練完成,就可以像USB設備一樣"即插即用"地安裝到各種自動駕駛系統中,無需對原有系統做任何重新訓練。在nuScenes這個權威的自動駕駛測試基準上,FastDriveVLA不僅將視覺處理速度提升了7倍以上,在某些配置下甚至比不做任何精簡的原始模型表現得更好——這個看似矛盾的結果恰恰印證了一個深刻的道理:少即是多,專注才能卓越。
為什么自動駕駛AI需要學會"做減法"
要理解這項研究的價值,我們需要先了解當前自動駕駛AI面臨的一個核心困境。
近年來,一種被稱為"視覺-語言-動作模型"(簡稱VLA模型)的技術在自動駕駛領域掀起了革命。這種模型借鑒了ChatGPT等大型語言模型的架構,能夠同時理解視覺圖像和自然語言指令,并據此生成駕駛動作。相比傳統的模塊化自動駕駛系統——需要分別處理感知、預測和規劃三個環節——VLA模型實現了真正的"端到端"學習:從攝像頭看到的原始畫面直接輸出方向盤轉角和油門剎車指令,中間不需要任何人工設定的規則。
這種一體化設計帶來了兩個顯著優勢。其一,它消除了傳統系統中模塊之間的"信息斷層"——當感知模塊把三維空間中的車輛誤認為是廣告牌時,這個錯誤會像多米諾骨牌一樣傳導到后續的每一個模塊,最終導致整個系統做出危險決策。端到端模型則讓所有這些"翻譯"過程在一個統一的神經網絡內部完成,減少了誤差累積的機會。其二,這種設計大大簡化了系統架構,使得工程師可以專注于收集更多高質量的駕駛數據,而不是在各個模塊的接口處修修補補。
然而,VLA模型有一個致命的軟肋:它們太"貪心"了。為了充分理解一幅道路場景圖像,這類模型通常會把圖像切割成數千個小塊,每個小塊都會被轉換成一個"視覺令牌"(類似于語言模型處理文字時的"單詞"概念)。以本研究采用的Impromptu-VLA模型為例,一張分辨率為1596×1596的道路圖像會產生多達3249個視覺令牌。這意味著什么呢?用一個形象的比喻來說,如果把AI處理每個令牌的工作比作閱讀一個漢字,那么這個AI每看一眼前方道路,就要"閱讀"相當于一篇3000多字文章的信息量。
![]()
問題在于,這3000多個"漢字"中,真正與駕駛決策相關的可能只有幾百個——那些表示車輛、行人、車道線、紅綠燈的部分。剩下的大部分信息都在描述天空有多藍、路邊的樹葉有多綠、遠處的建筑是什么風格這些與安全駕駛毫無關系的內容。但AI并不天然知道這一點,它會老老實實地把每一個令牌都認真"讀"一遍,耗費了大量的計算資源和時間。
在實驗室環境下,這種"過度閱讀"或許還可以容忍。但在真實的自動駕駛場景中,每一毫秒的延遲都可能意味著生死之差。當車輛以每小時60公里的速度行駛時,50毫秒的延遲意味著車輛會在AI"思考"的時間里向前沖出近1米。如果前方突然有行人闖入,這1米的距離可能就是能否及時剎住車的關鍵。
因此,如何讓VLA模型學會"抓重點"——在保證駕駛安全的前提下,大幅減少需要處理的視覺令牌數量——就成了一個迫在眉睫的技術難題。
現有方案為何在自動駕駛場景中水土不服
在FastDriveVLA出現之前,研究者們已經提出了多種減少視覺令牌的方法,但這些方法在自動駕駛這個特殊領域都表現不佳。
![]()
第一類方法被稱為"基于注意力的剪枝"。這類方法的核心思想是:既然VLA模型內部本來就有一個"注意力機制"——用來判斷視覺信息和文字指令之間的相關性——那為什么不直接利用這個機制來篩選重要的視覺令牌呢?具體來說,這些方法會觀察模型在處理用戶指令(比如"預測未來3秒的行車軌跡")時,哪些視覺令牌得到了更多的"關注",然后保留這些被關注的令牌,丟棄那些被忽視的。FastV和SparseVLM是這類方法的典型代表。
這個思路在處理類似"圖片里有幾只貓"這樣的視覺問答任務時效果很好,因為用戶的問題("貓")和圖片中的關鍵內容(貓的圖像)之間有非常直接的語義關聯。但在自動駕駛場景中,這種關聯就變得非常薄弱了。想象一下,自動駕駛AI收到的指令通常是什么?無非是"規劃未來行車路徑"或者"預測下一步的駕駛動作"這樣固定且抽象的句子。這些文字和具體的道路場景之間幾乎沒有什么可以"配對"的元素——"規劃"這個詞既不會讓AI更關注紅綠燈,也不會讓它更注意路邊的行人。結果就是,基于注意力的方法在自動駕駛任務中幾乎成了"瞎指揮",它選中的令牌往往并不是真正重要的那些。
第二類方法被稱為"基于相似度的剪枝"。這類方法的邏輯完全不同:它假設圖像中相似的區域是冗余的,因此應該盡量保留那些"不同"的視覺令牌,以覆蓋圖像中盡可能多樣化的信息。VisPruner和DivPrune采用的就是這種策略。打個比方,如果把視覺令牌想象成一盒彩色糖果,這類方法的目標是挑出顏色盡可能不重復的糖果,確保每種顏色都有代表。
在處理內容豐富但沒有明確重點的圖像時,這種"求異"策略確實能夠較好地保留全局信息。但自動駕駛場景恰恰是有非常明確重點的——那些與行車安全相關的"前景"區域(車道、車輛、行人等)遠比其他區域重要得多。基于相似度的方法并不理解這種重要性的差異,它可能會認為天空中的一朵特殊形狀的云彩和路面上的一個普通車輛同樣"獨特",于是保留了云彩而丟棄了車輛。在計算資源有限的情況下,這種"不分輕重"的篩選策略顯然會損害駕駛安全。
更糟糕的是,還有一些方法試圖通過設計新的"多模態投影器"來從源頭上壓縮視覺令牌的數量。這類方法雖然可能效果不錯,但有一個致命的缺陷:它們需要對整個VLA模型進行重新訓練。考慮到當前頂尖VLA模型的訓練成本——動輒需要數十塊高端GPU運行數周時間——這種方案在實際應用中幾乎不可行。
FastDriveVLA的核心洞見:讓AI學會"看重點"
FastDriveVLA的創新來自一個非常符合直覺的觀察:人類司機是如何開車的?
當你手握方向盤行駛在公路上時,你的視覺系統并不是在平等地處理視野中的每一個像素。相反,你的注意力會高度集中在那些對駕駛決策至關重要的區域——前方車輛的位置和速度、路面上的車道標線、交通信號燈的顏色、可能穿過馬路的行人。與此同時,遠處的山巒、路邊的廣告牌、天空中的飛鳥——這些信息雖然也進入了你的視網膜,但大腦幾乎不會對它們進行深入處理。即使突然有人把你眼前的天空換成完全不同的顏色,你可能都不會注意到,因為那根本不在你的"關注雷達"范圍內。
研究團隊將這種人類的注意力分配模式總結為一個簡潔的原則:在自動駕駛場景中,"前景"信息(包括人、道路、車輛、交通標志和交通障礙物)對駕駛決策至關重要,而"背景"信息(建筑物、天空、路邊樹木等)則基本可以忽略。如果能讓AI也學會這種"重點篩選"能力,就可以在大幅減少計算量的同時保持甚至提高駕駛性能。
但如何讓AI學會區分前景和背景呢?研究團隊想到了一個巧妙的方法:圖像重建。
想象你是一位藝術系的學生,老師給你看了一幅城市街景照片幾秒鐘,然后要求你僅憑記憶把它畫出來。由于時間有限,你不可能記住畫面中的每一個細節,只能優先記住那些最重要、最顯眼的元素。如果你的任務是"盡可能準確地畫出街道上的所有車輛和行人",那么你的注意力自然會集中在這些前景物體上,而忽略背景中的建筑細節。這個過程中,"需要重建什么"這個任務本身就在隱式地教會你"應該關注什么"。
FastDriveVLA正是利用了這個原理。研究團隊設計了一個輕量級的"視覺令牌篩選器",給它取名叫ReconPruner(重建剪枝器)。這個篩選器的工作方式是:首先給每個視覺令牌打一個"重要性分數",然后只保留分數最高的那些令牌,嘗試用這些令牌來"重建"原始圖像的前景區域。如果重建出來的前景畫面和原圖很接近,說明這些高分令牌確實包含了前景的關鍵信息;如果重建效果很差,說明篩選器"看走了眼",遺漏了重要的前景令牌。通過不斷調整打分策略,篩選器逐漸學會了把高分給予那些真正承載前景信息的令牌。
這種訓練方式借鑒了計算機視覺領域一種叫做"掩碼自編碼器"(MAE)的技術。在MAE中,模型需要從被部分遮擋的圖像中恢復出完整圖像,這個過程迫使模型學習圖像的本質結構特征。FastDriveVLA把這個思想應用到了視覺令牌篩選上:讓篩選器選出的令牌來重建前景,就相當于在訓練篩選器"找出真正重要的視覺信息"。
對抗訓練策略:防止AI"偷懶"
然而,僅僅要求篩選器重建前景還不夠。研究團隊在實驗中發現了一個有趣的問題:如果只用前景重建質量來訓練篩選器,它會學會一種"投機取巧"的策略——給所有視覺令牌都打高分。這樣一來,雖然前景重建的效果會很好(因為前景信息肯定都被保留了),但篩選器就完全失去了"篩選"的意義,我們還是要處理全部的視覺令牌。
用一個生活化的比喻來解釋這個現象:假設你是一個公司的HR,老板讓你從100份簡歷中篩選出最優秀的10位候選人來面試。如果老板只根據"被選中的人有多優秀"來評估你的工作,你可能會干脆把所有100份簡歷都遞上去——反正最優秀的那幾位肯定在里面,你的KPI穩穩達成。但這顯然違背了"篩選"的初衷。
為了防止ReconPruner學會這種"偷懶"策略,研究團隊引入了一個"對抗性前景-背景重建策略"。這個策略的核心是:不僅要求用高分令牌重建前景,還要求用低分令牌重建背景。也就是說,篩選器不僅要能"選對"重要的令牌,還要能"排除"不重要的令牌——那些被打了低分的令牌應該主要包含背景信息,用它們來重建背景應該也有不錯的效果。
這種雙向約束徹底堵死了"偷懶"的路。如果篩選器給所有令牌都打高分,那就沒有令牌來重建背景了,背景重建任務會徹底失敗。如果篩選器給所有令牌都打低分,前景重建任務又會失敗。只有真正學會區分前景和背景,兩個任務才能同時完成得很好。
這種設計靈感來自于著名的"生成對抗網絡"(GAN)思想。在GAN中,兩個神經網絡相互"對抗"——一個負責生成假圖片,另一個負責辨別真假——正是這種對抗讓生成器越來越擅長制作以假亂真的圖像。FastDriveVLA借用了這種"在對抗中成長"的理念,通過前景和背景重建任務的相互制約,讓篩選器的判斷能力不斷精進。
nuScenes-FG數據集:為AI標記道路上的"重點區域"
俗話說"巧婦難為無米之炊",再好的算法也需要高質量的數據來訓練。為了教會ReconPruner區分前景和背景,研究團隊首先需要大量標注了前景區域的自動駕駛場景圖像。
![]()
nuScenes是自動駕駛研究領域最權威的公開數據集之一,包含1000個駕駛場景、六個攝像頭視角的完整記錄。然而,nuScenes原有的標注主要是車輛和行人的三維包圍盒——也就是在三維空間中用一個立方體框住目標物體。這種標注方式有一個問題:包圍盒是"粗略"的,它不僅包含了目標物體本身,還包含了目標周圍的一些背景區域。而且,nuScenes的地圖擴展包雖然提供了11類語義標注,但仍然無法覆蓋所有與駕駛相關的前景要素。
為了解決這個問題,研究團隊利用最新的Grounded-SAM技術,對整個nuScenes數據集進行了精細的前景分割標注。Grounded-SAM是一種結合了語言理解和圖像分割能力的AI工具,它可以根據文字描述(如"道路"、"車輛"、"行人"等)自動在圖像中勾勒出對應物體的精確輪廓,比傳統的包圍盒標注精細得多。
研究團隊將自動駕駛場景中的前景定義為五類:人、道路、車輛、交通標志(包括紅綠燈)和交通障礙物(如路面上的障礙墩、施工護欄等)。其他區域——建筑物、天空、樹木等——則被歸類為背景。基于這個定義,他們使用Grounded-SAM對nuScenes的全部場景進行了處理,最終得到了一個包含24.1萬張圖像-掩碼對的大規模數據集,并將其命名為nuScenes-FG(FG代表Foreground,即前景)。
nuScenes-FG數據集涵蓋了六個攝像頭視角(前、后、左前、右前、左后、右后),每張圖像都配有精確的像素級前景標注。這意味著AI可以準確地知道圖像中的每一個像素是屬于前景還是背景,為ReconPruner的訓練提供了理想的監督信號。研究團隊表示,這個數據集也將開放給其他研究者使用,有望推動自動駕駛前景感知領域的進一步發展。
ReconPruner的技術架構:小身材大能量
ReconPruner的設計充分體現了"輕量高效"的理念。它的整體參數量只有0.07億(700萬),相比動輒數十億參數的VLA主模型,簡直是"九牛一毛"。這種輕量級設計確保了篩選過程本身不會成為新的計算瓶頸。
ReconPruner由兩個核心組件構成:PrunerLayer(剪枝層)和Scorer(評分器)。
PrunerLayer的作用是讓視覺令牌之間"交流信息",為后續的評分做準備。它采用的是Qwen2.5-VL-3B模型中單個解碼層的結構——這是目前性能優異的視覺語言模型之一。在PrunerLayer中,研究團隊引入了一個特殊的"查詢令牌",這個令牌就像一個"偵察兵",它的任務是在與所有視覺令牌交互的過程中,探測出整個場景中哪些區域包含前景信息。
具體來說,查詢令牌和所有視覺令牌一起被送入PrunerLayer,通過注意力機制進行信息融合。處理完成后,每個視覺令牌都會"吸收"一部分來自查詢令牌的信息,這些信息編碼了"這個令牌與前景區域相關程度"的判斷。
接下來,Scorer登場了。Scorer是一個極其簡單的單層前饋網絡,它接收PrunerLayer的輸出,為每個視覺令牌計算一個"顯著性分數"——分數越高,表示這個令牌越可能包含重要的前景信息。這個評分過程通過一個數學運算叫做"Hadamard乘積"來實現:將每個視覺令牌與查詢令牌逐元素相乘,然后通過Scorer輸出一個標量分數。
在訓練階段,ReconPruner會根據顯著性分數將視覺令牌分為兩組:高分組和低分組。高分組的令牌被送入重建解碼器來重建前景圖像,低分組的令牌則被用來重建背景圖像。重建解碼器由六層Qwen2.5-VL-3B解碼層和一個前饋重建頭組成。通過比較重建圖像與真實圖像的差異,系統可以計算出重建損失,這個損失信號會反向傳播回ReconPruner,指導它調整評分策略。
重建損失的計算結合了兩種常用的圖像質量評估指標:均方誤差(MSE)和結構相似性指數(SSIM)。MSE關注的是像素級的精確匹配,而SSIM則更注重人眼感知的結構相似性。研究團隊發現,將這兩種損失以2:8的比例組合,可以獲得最好的訓練效果。前景重建損失和背景重建損失則以1:1的比例相加,確保篩選器不會偏向任何一方。
值得一提的是,訓練過程中有一個技術細節需要特別處理:根據顯著性分數將令牌分組是一個"非連續"的操作——分數高于某個閾值的歸入高分組,否則歸入低分組。這種非連續操作會阻斷梯度的反向傳播,讓神經網絡無法通過常規方法學習。為了解決這個問題,研究團隊采用了"直通估計器"(STE)技術:在前向計算時使用真正的離散分組,在反向傳播時則用連續的近似值來傳遞梯度。這是深度學習中處理離散操作的標準技巧。
推理階段:即插即用的效率提升
ReconPruner最吸引人的特性之一是它的"即插即用"能力。一旦訓練完成,它可以無縫地插入到任何使用相同視覺編碼器的VLA模型中,而不需要對這些模型進行任何額外的訓練或微調。
在推理階段,工作流程非常簡潔。首先,道路圖像被送入VLA模型的視覺編碼器,產生大量的視覺令牌(比如前面提到的3249個)。接著,ReconPruner對這些令牌進行評分,根據預設的剪枝比例(比如保留50%),選出顯著性分數最高的那些令牌。最后,只有被選中的令牌會被送入VLA模型的語言模型部分進行后續處理,生成駕駛動作預測。
這個過程中有一個細節值得注意:為了保持被選中令牌的空間語義信息,ReconPruner會同時保留它們對應的位置編碼。位置編碼是Transformer架構中的關鍵組成部分,它告訴模型每個令牌在原始圖像中的位置。如果丟失了位置信息,模型就無法知道"前方有一輛車"到底是在畫面的左邊還是右邊,這對于駕駛決策來說是災難性的。
實際部署時,研究團隊推薦使用50%的剪枝比例——也就是保留一半的視覺令牌。這個比例在各項性能指標上實現了最好的平衡:既獲得了顯著的效率提升,又幾乎沒有損失駕駛性能。研究團隊也測試了25%和75%的剪枝比例:25%的剪枝相對保守,效率提升有限但性能幾乎無損甚至略有提升;75%的剪枝則比較激進,效率大幅提升但會帶來一定的性能下降。由于自動駕駛是安全關鍵型應用,研究團隊建議在實際部署時優先考慮性能保障,不宜使用過于激進的剪枝策略。
實驗結果:全面超越現有方法
研究團隊在nuScenes數據集上對FastDriveVLA進行了全面評估,并與現有的主流視覺令牌剪枝方法進行了對比。基準模型選用的是Impromptu-VLA——目前公認性能最強的端到端自動駕駛VLA模型之一,它基于Qwen2.5-VL架構構建。
評估采用的是"開環規劃"范式,測試數據集包含6019個樣本。研究團隊使用三個核心指標來衡量模型性能:軌跡預測的L2誤差(預測軌跡與真實軌跡之間的歐氏距離,單位為厘米)、碰撞率(預測軌跡與其他道路使用者發生碰撞的概率)、以及越界率(預測軌跡駛出道路邊界的概率)。這三個指標都是"越低越好"的類型。
對比的基線方法包括兩類:基于注意力的FastV和SparseVLM,以及基于相似度的VisPruner和DivPrune。這四種方法都發表在頂級學術會議上(ECCV、ICML、ICCV、CVPR),代表了當前的技術前沿。
實驗結果令人印象深刻。在保留75%視覺令牌(剪枝25%)的設置下,FastDriveVLA在所有三項指標上都超過了全部基線方法。更令人驚喜的是,它在L2誤差和越界率這兩項指標上甚至比完全不做剪枝的原始Impromptu-VLA模型還要好——L2誤差從31.83厘米降低到31.80厘米,越界率從2.80%降低到2.77%。這個"負剪枝"效應有力地證明了研究團隊的核心假設:專注于前景視覺信息不僅不會損害性能,反而有助于模型做出更好的決策。那些被剪掉的背景令牌實際上一直在"干擾"模型,去除它們反而讓模型的注意力更加集中。
在保留50%視覺令牌的設置下,FastDriveVLA繼續保持全面領先,平均L2誤差為32.10厘米,碰撞率為0.25%,越界率為2.94%。與原始模型相比,這些數字意味著FastDriveVLA只用一半的視覺信息就保持了超過99%的軌跡預測精度、97%的碰撞避免能力和95%的道路邊界遵守能力。考慮到計算量的大幅下降,這是一個非常出色的權衡。
即使在激進的75%剪枝設置下(只保留25%的視覺令牌),FastDriveVLA的優勢依然明顯。它的平均L2誤差為32.64厘米,而四種基線方法的最優值為32.77厘米;碰撞率為0.29%,而基線最優值為0.31%;越界率為2.91%,而基線最優值為2.93%。雖然性能相比保守剪枝有所下降,但FastDriveVLA始終是表現最好的方法。
效率分析:速度提升看得見
除了性能指標,研究團隊還對各種剪枝方法的計算效率進行了詳細分析。
當視覺令牌從3249個減少到812個(剪枝75%)時,FastDriveVLA的浮點運算次數(FLOPs)從38.2萬億次降低到5.1萬億次,減少了約7.5倍。這意味著AI的"思考量"減少到了原來的七分之一左右。
更直觀的是實際運行時間的變化。在GPU上測量的"預填充時間"(AI首次看到圖像到開始生成輸出之間的延遲)從187毫秒降低到51毫秒,加速了約3.7倍。"解碼時間"(生成每個輸出令牌所需的時間)從23毫秒降低到18毫秒,加速了約1.3倍。預填充時間的大幅降低對自動駕駛尤其重要,因為這直接決定了系統對新路況的響應速度。
有趣的是,雖然FastDriveVLA引入了一個額外的參數化篩選器(ReconPruner),理論上會增加一些計算開銷,但由于ReconPruner的設計極其輕量,加上它帶來的令牌數量大幅減少,總體效率反而比一些"無參數"的剪枝方法更高。這體現了研究團隊在架構設計上的精妙考量。
消融實驗:每個設計都有其必要性
為了驗證FastDriveVLA各個組成部分的貢獻,研究團隊進行了一系列消融實驗。
首先,他們測試了用"前景掩碼預測"代替"像素重建"的效果。前景掩碼預測是一種更簡單的訓練目標:讓篩選器學習預測每個視覺令牌是屬于前景還是背景,而不是去重建圖像內容。實驗結果顯示,這種簡化方案在所有指標上都不如像素重建。研究團隊分析認為,掩碼預測只提供了二元的"是/否"監督信號,無法區分前景區域內各個令牌的重要性差異——一個包含模糊路面紋理的令牌和一個包含清晰車輛輪廓的令牌會被同等對待。而像素重建任務則隱式地對不同復雜度的視覺內容賦予了不同的權重:復雜且信息豐富的區域(如車輛)如果被遺漏,重建誤差會很大;簡單的均勻區域(如路面)即使被遺漏,重建誤差也相對較小。
其次,他們測試了移除"對抗性前景-背景重建策略"的影響——也就是只進行前景重建訓練,不要求低分令牌重建背景。這個配置的性能下降更為明顯,證實了前文分析的"偷懶"問題確實存在:沒有背景重建的約束,篩選器傾向于給更多令牌打高分,失去了有效區分前景和背景的能力。
另一組有趣的實驗是將FastDriveVLA與"直接使用前景掩碼剪枝"進行對比。既然研究團隊已經建立了nuScenes-FG數據集,為什么不直接把前景掩碼縮放到視覺令牌的分辨率,然后根據掩碼來決定保留哪些令牌呢?這看起來是一個簡單直接的方案。
實驗結果顯示,基于掩碼的剪枝確實比純粹基于文本注意力的剪枝有所改進,證明了"前景令牌更重要"這個假設是正確的。但FastDriveVLA的效果仍然更好。研究團隊指出了兩個原因:第一,前景掩碼只提供二元判斷,無法對不同令牌的重要性進行細粒度排序,因此難以適應不同的剪枝比例需求;第二,更重要的是,視覺編碼器產生的視覺令牌與原始圖像之間存在"空間錯位"——這是Vision Transformer架構的一個已知問題,令牌的感受野并不精確對應圖像中的特定區域。直接用圖像級的掩碼來篩選令牌會引入系統性的偏差,而FastDriveVLA通過端到端學習回避了這個問題。
此外,使用Grounded-SAM在線生成前景掩碼還有一個實際困難:每張圖像的處理大約需要3秒,這對于實時駕駛系統來說是無法接受的延遲。而訓練好的ReconPruner可以在毫秒級時間內完成令牌評分,完全滿足實時性要求。
可視化分析:看看AI到底在關注什么
為了直觀展示FastDriveVLA的效果,研究團隊提供了豐富的可視化結果。
![]()
在前景和背景重建的可視化中,可以清晰地看到ReconPruner的工作效果。給定一張道路場景輸入圖像,ReconPruner選出的高分令牌能夠重建出包含車道線、車輛、交通標志等元素的前景圖像,而低分令牌重建出的則是去除了這些前景元素的背景圖像——主要是天空、建筑物和路邊植被。兩張重建圖像幾乎完美互補,說明ReconPruner確實學會了精準區分前景和背景。
在與其他方法的對比可視化中,差異更加明顯。FastV(基于注意力的方法)選擇保留的視覺令牌分布比較零散,而且明顯遺漏了圖像中的部分車輛——這對于自動駕駛來說是致命的疏忽。DivPrune(基于相似度的方法)保留的令牌雖然數量不少,但空間分布過于分散,對車道區域的覆蓋不夠集中,可能影響軌跡規劃的準確性。相比之下,FastDriveVLA選擇的令牌高度聚焦在車道線、前方車輛、交通標志等關鍵區域,分布緊湊而有序,與人類司機的注意力模式高度吻合。
至頂AI實驗室洞見
盡管FastDriveVLA取得了優異的性能,研究團隊也坦誠地討論了當前工作的一些局限性。
首先,ReconPruner的訓練依賴于預先定義的"前景"概念。雖然研究團隊的定義覆蓋了大多數駕駛相關要素,但在某些特殊場景下可能不夠全面。例如,道路施工現場的臨時標識、動物穿越馬路、或者極端天氣條件下的特殊視覺線索,可能并不完全符合"人、車、路、標志、障礙物"這五類定義。未來的工作可以考慮引入更靈活的前景定義機制,或者讓模型自適應地學習場景相關的重要性判斷。
其次,當前的評估主要基于開環規劃指標,也就是在固定的測試樣本上比較預測軌跡與真實軌跡的差異。雖然這是自動駕駛研究中廣泛使用的評估范式,但它無法完全反映系統在真實閉環駕駛中的表現——在閉環場景中,車輛的實際運動會影響后續的感知輸入,形成復雜的反饋循環。研究團隊表示,后續會在更接近真實場景的閉環仿真環境中進一步驗證FastDriveVLA的效果。
第三,雖然FastDriveVLA的"即插即用"特性是一大優勢,但它目前僅限于使用相同視覺編碼器的VLA模型。如果未來出現了采用全新視覺編碼器架構的模型,可能需要為新架構重新訓練ReconPruner。不過,由于ReconPruner的訓練成本很低(只需要兩塊H800 GPU訓練3小時),這個限制在實際中并不算嚴重。
這項研究最重要的貢獻可能不在于具體的技術方案,而在于它揭示的深層道理:有時候,"少"確實就是"多"。在自動駕駛這樣的復雜任務中,讓AI學會忽略無關信息,與讓它學會理解重要信息同等重要。FastDriveVLA用一種優雅的方式實現了這個目標,為高效、安全的自動駕駛系統開辟了新的可能。
對于普通人來說,這項研究意味著未來的自動駕駛汽車可能會變得更加"聰明"——不是因為它們能處理更多的信息,而是因為它們學會了像人類老司機一樣,知道什么時候該關注什么,什么信息可以安全地忽略。這種"智慧的專注"或許正是通往真正可靠自動駕駛的關鍵一步。
本文來自至頂AI實驗室,一個專注于探索生成式AI前沿技術及其應用的實驗室。致力于推動生成式AI在各個領域的創新與突破,挖掘其潛在的應用場景,為企業和個人提供切實可行的解決方案。
Q&A
Q1:FastDriveVLA是什么?
A:FastDriveVLA是北京大學和小鵬汽車聯合開發的一種自動駕駛AI加速框架。它通過一個名為ReconPruner的輕量級視覺令牌篩選器,讓自動駕駛系統學會像人類司機一樣只關注道路上的重要信息(如車輛、行人、車道線、交通標志),自動過濾掉不重要的背景信息,從而在保持甚至提升駕駛性能的同時,將視覺處理速度提升約7倍。
Q2:ReconPruner為什么能準確區分道路上的重要和不重要信息?
A:ReconPruner采用了一種獨特的"圖像重建"訓練方法。它被要求用高分令牌重建前景(車輛、道路等),同時用低分令牌重建背景(天空、建筑等)。這種雙向約束迫使它精準學習什么是重要信息。如果分類錯誤,重建質量就會明顯下降,系統會據此不斷調整評分策略。
Q3:nuScenes-FG數據集包含哪些內容?
A:nuScenes-FG是研究團隊專門為訓練ReconPruner構建的大規模數據集,包含24.1萬張圖像及其配套的前景分割標注。數據涵蓋六個攝像頭視角,每張圖像都精確標注了五類前景要素:人、道路、車輛、交通標志和交通障礙物。該數據集將對外開放,供自動駕駛研究者使用。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.