![]()
在過(guò)去幾年,自動(dòng)駕駛?cè)α餍幸痪湓挘骸复竽P蜁?huì)說(shuō)話,但不會(huì)開(kāi)車(chē)。」
一方面,大規(guī)模視覺(jué)語(yǔ)言模型(VLM)在文本理解和邏輯推理上突飛猛進(jìn);另一方面,一旦把它們放到真實(shí)道路上,讓它們處理長(zhǎng)尾場(chǎng)景、遠(yuǎn)距離目標(biāo)和復(fù)雜博弈時(shí),這些 “聰明大腦” 卻常常犯低級(jí)錯(cuò)誤:看不清、定位不準(zhǔn)、反應(yīng)不穩(wěn)定。深層原因在于 ——現(xiàn)有 VLM 在空間感知和幾何理解上的能力,遠(yuǎn)遠(yuǎn)跟不上它們?cè)谡Z(yǔ)義層面的 “表達(dá)能力”。
為了讓大模型真的能 “看懂世界”,在很多現(xiàn)有方案中,研究者會(huì)在訓(xùn)練中加入一些 “感知類 QA” 問(wèn)題,比如問(wèn) “左前方有沒(méi)有車(chē)”“兩車(chē)距離有多遠(yuǎn)”。但這類監(jiān)督更多停留在語(yǔ)義標(biāo)簽和粗略相對(duì)關(guān)系層面,并沒(méi)有讓模型真正學(xué)會(huì)可用于控制決策的強(qiáng) 2D/3D 感知能力 —— 例如精確、穩(wěn)定的檢測(cè)框、分割結(jié)果和 BEV 感知信息。換句話說(shuō),今天很多 VLA 仍然停留在「會(huì)回答關(guān)于世界的問(wèn)題」,而不是「真的看清這個(gè)世界」。這種 “弱感知的大模型”,顯然不足以支撐自動(dòng)駕駛和廣義具身智能對(duì)空間理解的高要求。
近日,來(lái)自引望智能與復(fù)旦大學(xué)的研究團(tuán)隊(duì)聯(lián)合提出了一個(gè)面向自動(dòng)駕駛的新一代大模型 ——Percept-WAM(Perception-Enhanced World–Awareness–Action Model)。該模型旨在在一個(gè)統(tǒng)一的大模型中,將「看見(jiàn)世界(Perception)」「理解世界(World–Awareness)」和「驅(qū)動(dòng)車(chē)輛行動(dòng)(Action)」真正打通,形成一條從感知到?jīng)Q策的完整鏈路。
![]()
- 論文標(biāo)題:Percept-WAM: Perception-Enhanced World-Awareness-Action Model for Robust End-to-End Autonomous Driving
- 論文鏈接:https://arxiv.org/abs/2511.19221
整體架構(gòu) / 任務(wù)介紹
在架構(gòu)設(shè)計(jì)上,如圖 1 所示,Percept-WAM 基于具備通用推理能力的 VLM主干構(gòu)建,在保留其原有語(yǔ)言與推理優(yōu)勢(shì)的同時(shí),引入 World-PV / World-BEV 世界 Token,統(tǒng)一 PV / BEV 視角下的 2D/3D 感知表示:通過(guò)可學(xué)習(xí)的 BEV 級(jí)柵格 Token 將多視角 PV 特征隱式映射到 BEV 空間,并采用柵格條件(grid-conditioned)預(yù)測(cè)機(jī)制;在解碼側(cè),則結(jié)合 IoU-aware 置信度輸出與并行自回歸解碼等關(guān)鍵技術(shù)來(lái)提升輸出的精度及效率,同時(shí)配備輕量級(jí)動(dòng)作解碼頭,用于高效預(yù)測(cè)未來(lái)行車(chē)軌跡。
在訓(xùn)練任務(wù)上,Percept-WAM 接收多視角流式視頻、LiDAR 點(diǎn)云 (可選) 以及文本查詢作為輸入,在同一模型上聯(lián)合優(yōu)化 PV 下的 2D 檢測(cè)、實(shí)例分割、語(yǔ)義分割、單目 3D 檢測(cè)任務(wù)等, BEV 下的 3D 檢測(cè)與 BEV map 分割任務(wù)等,以及基于多幀輸入的軌跡預(yù)測(cè)任務(wù)。
![]()
圖 1:Percept-WAM 模型整體架構(gòu)圖
核心設(shè)計(jì):World-PV / World-BEV
把世界壓成一組 Token
Percept-WAM 圍繞 World–Awareness–Action 構(gòu)建統(tǒng)一的世界 token 空間:多視角圖像和 3D 場(chǎng)景被壓縮為一小組結(jié)構(gòu)化 World tokens。每個(gè) token 顯式攜帶語(yǔ)義特征、空間位置以及置信度,用作 2D/3D 感知、軌跡預(yù)測(cè)等下游任務(wù)的共享世界表征。
在圖像平面,World-PV tokens將每幀圖像劃分為規(guī)則柵格,每個(gè)柵格對(duì)應(yīng)輸出一組 token,聯(lián)合編碼局部外觀與 2D/3D 幾何信息(如像素坐標(biāo)、歸一化尺寸、視線方向等)。基于同一組 PV tokens,模型可以統(tǒng)一建模 2D 檢測(cè)、實(shí)例 / 語(yǔ)義分割、單目 3D 檢測(cè)等任務(wù),后續(xù)再疊加?xùn)鸥駰l件預(yù)測(cè)與 IoU-aware 評(píng)分機(jī)制,提升密集 2D 感知的穩(wěn)定性和排序質(zhì)量。
在鳥(niǎo)瞰 (BEV) 視角,World-BEV tokens(根據(jù)是否存在 Lidar 點(diǎn)云特征,可選的從 LiDAR 特征初始化或隨機(jī)初始化) 對(duì)應(yīng)覆蓋前方場(chǎng)景的固定分辨率 BEV 網(wǎng)格單元。每個(gè) BEV token 通過(guò)與多視角 PV 特征的交互,隱式建模 PV 到 BEV 上的映射,聚合該網(wǎng)格區(qū)域的占據(jù)狀態(tài)、語(yǔ)義類別和運(yùn)動(dòng)屬性(如速度、朝向等),在世界 token 空間中顯式刻畫(huà)道路結(jié)構(gòu)與交通參與者的空間關(guān)系。
柵格條件預(yù)測(cè) + IoU-aware:
穩(wěn)定密集場(chǎng)景感知
為支撐城市場(chǎng)景中的高密度目標(biāo)預(yù)測(cè)及對(duì)應(yīng)物體預(yù)測(cè)置信度的矯正,Percept-WAM 在解碼端引入柵格條件預(yù)測(cè)(Grid-Conditioned Prediction) 和 IoU-aware 置信度回歸兩項(xiàng)關(guān)鍵設(shè)計(jì)。
柵格條件預(yù)測(cè)借鑒了 UFO [1] 的思想,將整個(gè)特征空間按 PV/BEV 柵格劃分為多個(gè)子區(qū)域,并圍繞每個(gè)柵格構(gòu)造局部自回歸序列,其中 (i) 每個(gè)柵格對(duì)應(yīng)一條局部自回歸子序列,只回歸該區(qū)域內(nèi)對(duì)應(yīng)的候選目標(biāo);(ii) 不同柵格之間通過(guò)注意力 mask 做隔離,限制跨區(qū)域的無(wú)關(guān)交互,進(jìn)行并行訓(xùn)練及預(yù)測(cè),顯著縮短了單序列長(zhǎng)度,減輕了超長(zhǎng)序列導(dǎo)致的訓(xùn)練不穩(wěn)定和目標(biāo)間干擾,提升了高密度場(chǎng)景下的收斂性與訓(xùn)推效率。
IoU-aware 置信度預(yù)測(cè)則顯式建模候選框的定位質(zhì)量。在訓(xùn)練階段監(jiān)督置信度微調(diào)數(shù)據(jù)集(Confidence-tuning Dataset)的分值 token,在推理階段輸出預(yù)測(cè)框與真實(shí)框的 IoU 預(yù)測(cè)結(jié)果,并將該 IoU 置信度分?jǐn)?shù)與分類分?jǐn)?shù)聯(lián)合用于整體置信度排序。相比僅依賴分類得分的傳統(tǒng)方案,這一設(shè)計(jì)在小目標(biāo)、遠(yuǎn)距離目標(biāo)以及長(zhǎng)尾類別上能夠提供更一致的候選排序,減少 NMS 階段的誤刪與誤保留,從而整體提升密集檢測(cè)的可靠性。
![]()
圖 2:利用 IoU-aware 置信度來(lái)顯式建模候選框的定位質(zhì)量,(a) 不同產(chǎn)生 IoU score 訓(xùn)練數(shù)據(jù)集的方式對(duì)比;(b) 原有訓(xùn)練數(shù)據(jù)以及帶 IoU Score 訓(xùn)練數(shù)據(jù)的不同 loss mask 方式對(duì)比
從感知到軌跡:
World–Action 打通決策鏈路
Percept-WAM 模型在感知類 world tokens 之上進(jìn)一步引入 World–Action tokens,用于動(dòng)作與軌跡預(yù)測(cè)的查詢(queries)。這些 tokens 從 World-PV / World-BEV 等感知 tokens 中聚合多視角圖像與 BEV 表征(以及可選 LiDAR)的信息,并與歷史軌跡、車(chē)速、轉(zhuǎn)向等車(chē)輛狀態(tài)融合,在統(tǒng)一坐標(biāo)系下直接生成未來(lái)規(guī)劃軌跡或控制信號(hào);相比 “先產(chǎn)出 BEV 特征、再交由獨(dú)立規(guī)劃網(wǎng)絡(luò) (Diffusion)” 的兩階段方案,World–Action 在同一 token 空間內(nèi)完成從世界建模到?jīng)Q策輸出,使感知與規(guī)劃在表示空間和時(shí)空對(duì)齊上天然一致。
在解碼方式上,Percept-WAM 將未來(lái)軌跡離散為一系列關(guān)鍵點(diǎn)或片段,結(jié)合并行化策略進(jìn)行加速,避免傳統(tǒng)自回歸 “一點(diǎn)一點(diǎn)推” 的 AR 推理的效率瓶頸。具體來(lái)說(shuō),在軌跡解碼方式上,Percept-WAM 采用輕量級(jí) MLP 解碼頭驅(qū)動(dòng)的query-based 軌跡預(yù)測(cè):World–Action 由一組功能不同的查詢組成,其中一部分查詢僅關(guān)注自車(chē)狀態(tài)特征(只與 Ego-state 交互),一部分查詢僅關(guān)注 PV 側(cè)特征(只與 World-PV 交互),一部分查詢僅關(guān)注 BEV 側(cè)特征(只與 World-BEV 交互),還有一部分同時(shí)匯聚所有輸入特征的信息,在融合視角下輸出最終軌跡。這種多組查詢并行工作的方式,一方面保留了 PV / BEV 各自對(duì)局部幾何與全局結(jié)構(gòu)的優(yōu)勢(shì),另一方面通過(guò)共享的 World tokens 建立統(tǒng)一的世界狀態(tài),避免軌跡預(yù)測(cè)任務(wù)過(guò)度依賴部分輸出特征。
![]()
圖 3:軌跡解碼 head 結(jié)構(gòu)可視化,不同組 query 關(guān)注不同的特征 (如自車(chē),PV,BEV 特征),Qfull 關(guān)注所有的特征并輸出最終軌跡
面向連續(xù)駕駛場(chǎng)景,Percept-WAM 引入streaming inference:在時(shí)間維度上采用 streaming KV cache strategy 復(fù)用歷史幀的注意力緩存,僅對(duì)新到達(dá)的幀做增量計(jì)算;同時(shí)通過(guò)longer-clip training scheme和dual-recomputation KV cache mechanism緩解訓(xùn)練–推理范式不一致帶來(lái)的 distribution drift 與誤差累積,從而在幾乎不犧牲規(guī)劃精度的前提下,顯著降低多幀多視角端到端推理的時(shí)延與計(jì)算開(kāi)銷(xiāo)。
實(shí)驗(yàn)結(jié)果:
高水平感知 + 強(qiáng)力軌跡規(guī)劃一體化模型
在公開(kāi)基準(zhǔn)上,Percept-WAM 在PV 視角感知、BEV 視角感知以及端到端軌跡規(guī)劃三個(gè)層面相較于現(xiàn)有模型均展現(xiàn)出強(qiáng)競(jìng)爭(zhēng)力。
1)PV 視角:統(tǒng)一 PV 場(chǎng)景下感知的 World-PV
在圖像平面上,Percept-WAM 基于 World-PV tokens 統(tǒng)一建模 2D 檢測(cè)、實(shí)例 / 語(yǔ)義分割與單目 3D 感知任務(wù),具體表現(xiàn)為:
- 與專用感知模型的對(duì)比
如表 1 所示,在 nuImages /nuScenes 的 PV 任務(wù)上,Percept-WAM 在 2D 與 Mono 3D 上整體匹配或超過(guò)專用模型 —— 在 2D detection 上達(dá)到 49.9 mAP,相比 Mask R-CNN 的 47.8 mAP 有明顯提升;在 2D instance segmentation 上取得 41.7 mAP,高于 Mask R-CNN 的 38.6 mAP;在 mono 3D detection 上達(dá)到 33.0 mAP,同樣優(yōu)于 FCOS3D 的 32.1 mAP。
- 2D–3D 協(xié)同與多任務(wù)聯(lián)合訓(xùn)練增益
實(shí)驗(yàn)觀察到明顯的 2D–3D 協(xié)同效應(yīng):在統(tǒng)一 World-PV 表征下聯(lián)合建模 2D 與 3D 檢測(cè),可帶來(lái)約+3.2 mAP的 2D 檢測(cè)增益。進(jìn)一步在自動(dòng)駕駛 PV 數(shù)據(jù)集上對(duì)所有 PV 任務(wù)進(jìn)行聯(lián)合訓(xùn)練,各基準(zhǔn)上基本維持一致或提升,說(shuō)明統(tǒng)一的 World-PV token 空間有利于在多任務(wù)之間共享有用的幾何與語(yǔ)義信息。
![]()
表 1: PV 場(chǎng)景下 Percept-WAM 的效果與其他主流模型的對(duì)比
- 置信度分?jǐn)?shù)矯正的影響
該文章同時(shí)可視化了預(yù)測(cè)的置信度分?jǐn)?shù)(x 軸)與對(duì)應(yīng)框真實(shí) IoU(y 軸)之間的關(guān)系。如下圖所示,引入 IoU-based confidence prediction 后,散點(diǎn)分布整體向 y = x 附近收斂,而在基于 model-prediction 數(shù)據(jù)集進(jìn)行訓(xùn)練的設(shè)置下,曲線與對(duì)角線的貼合度最高,說(shuō)明預(yù)測(cè)分?jǐn)?shù)與真實(shí)定位質(zhì)量更加一致,更適合作為后續(xù)篩選與排序的依據(jù)。
![]()
圖 4: PV 任務(wù)上置信度分?jǐn)?shù)矯正前后分?jǐn)?shù)分布對(duì)比,不同圖像代表不同的置信度分?jǐn)?shù)構(gòu)建方式或者不同的帶 IoU score 的訓(xùn)練數(shù)據(jù)生產(chǎn)方式
2)BEV 視角:World-BEV 承載 3D 場(chǎng)景理解
在 BEV 空間中,Percept-WAM 通過(guò) World-BEV tokens 統(tǒng)一建模路面占據(jù)、動(dòng)態(tài)目標(biāo)與地圖語(yǔ)義。如表 2 所示,即便在不使用時(shí)序信息、且采用相對(duì)較低圖像分辨率(448×796)的設(shè)置下,仍在 nuScenes 上展現(xiàn)出強(qiáng)競(jìng)爭(zhēng)力的 BEV 感知能力:
- BEV 3D 檢測(cè)性能
在 nuScenes BEV 3D detection 上,Percept-WAM 在無(wú)時(shí)序、低分辨率輸入的條件下依然取得58.9 mAP,整體表現(xiàn)優(yōu)于經(jīng)典 BEV 檢測(cè)方法,如 PointPillars 與 SECOND 等 specialist 檢測(cè)器。
- BEV map segmentation 與靜態(tài)語(yǔ)義建模
在 BEV map segmentation 任務(wù)上,基于 World-BEV tokens 的分割頭可以同時(shí)刻畫(huà)車(chē)道線、可行駛區(qū)域、行人橫穿區(qū)等靜態(tài)語(yǔ)義要素;在部分關(guān)鍵類別(如 drivable area、pedestrian crossing)上,Percept-WAM 的分割結(jié)果可以超過(guò) BEVFusion 等專用 BEV 模型。
![]()
表 2: BEV 場(chǎng)景下 Percept-WAM 的效果與其他主流模型的對(duì)比
3)端到端軌跡規(guī)劃:World–Action 連接世界與控制
在端到端軌跡規(guī)劃上,如表 3 所示,搭載 World–Action 軌跡解碼頭的 Percept-WAM 在 nuScenes 與 NAVSIM 上都取得了有競(jìng)爭(zhēng)力的表現(xiàn),并優(yōu)于多種現(xiàn)有 BEV-based 與 VLM-based 方案。具體來(lái)看:
- nuScenes 開(kāi)環(huán)軌跡評(píng)估
在 nuScenes 的 open-loop 軌跡指標(biāo)上,Percept-WAM 的平均軌跡 L2 誤差約為 0.36 m,在同等設(shè)置下優(yōu)于多數(shù) BEV-based 方法(如 UniAD)以及 VLM-based 方法(如 DriveVLM)。
- NAVSIM 閉環(huán)駕駛性能
直接軌跡模仿學(xué)習(xí)難以兼顧開(kāi)環(huán)與閉環(huán)指標(biāo),因此在 NAVSIM 的 closed-loop 評(píng)測(cè)中,Percept-WAM 采用對(duì)聚類軌跡打分的方式,獲得約 90.2 的綜合得分,同樣優(yōu)于大部分現(xiàn)有端到端方法。實(shí)驗(yàn)同時(shí)表明,兩階段訓(xùn)練策略(先在感知與中間任務(wù)上預(yù)訓(xùn)練,再在規(guī)劃任務(wù)上進(jìn)一步微調(diào))可以進(jìn)一步提升端到端駕駛性能。
![]()
表 3: 軌跡預(yù)測(cè)場(chǎng)景下 Percept-WAM 的效果與其他主流模型的對(duì)比
在定量結(jié)果之外,我們還給出三類代表性可視化示例:(i)PV 視角下的 2D 檢測(cè) / 實(shí)例分割與 mono 3D 檢測(cè)結(jié)果,(ii)BEV 視角下的 3D 檢測(cè)與 map 分割,(iii)NAVSIM /nuScenes 場(chǎng)景中的端到端規(guī)劃軌跡。
![]()
圖 5: PV 感知上 Percept-WAM 預(yù)測(cè)結(jié)果可視化,圖中展現(xiàn)了不同任務(wù)的可視化結(jié)果以及對(duì)道路上非白名單障礙物的檢測(cè)情況
![]()
圖 6: BEV 感知上 Percept-WAM 的 3D 檢測(cè)及 Map Segmentation 結(jié)果
![]()
圖 7: 軌跡預(yù)測(cè)任務(wù)上針對(duì)于路面難例 case,Percept-WAM 具有較強(qiáng)的預(yù)測(cè)魯棒性
總結(jié)來(lái)看,Percept-WAM 指出了一條面向未來(lái)的演進(jìn)路徑:在統(tǒng)一大模型中做強(qiáng)世界感知,用 World tokens 一體化打通世界表征與行為決策,逐步沉淀可持續(xù)演進(jìn)的自動(dòng)駕駛世界模型。它的價(jià)值不在于 “又多了一個(gè)更大的模型”,而在于給出了一個(gè)更完整、工程上可落地的范式 —— 自動(dòng)駕駛的大模型不應(yīng)該只是會(huì)聊天、會(huì)問(wèn)答的 “語(yǔ)文老師”,而應(yīng)該是一個(gè)真正能構(gòu)建世界、理解世界并在其中安全行動(dòng)的 “世界大腦”。
參考文獻(xiàn):
[1] UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.