![]()
一個(gè)智能駕駛系統(tǒng),在邁向高階自動(dòng)駕駛的過程中,應(yīng)當(dāng)具備何種能力?除了基礎(chǔ)的感知、預(yù)測、規(guī)劃、決策能力,如何對三維空間進(jìn)行更深入的理解?如何具備包含法律法規(guī)、道德原則、防御性駕駛原則等知識?如何進(jìn)行基本的視覺 - 語言推理?如何讓智能系統(tǒng)具備世界觀和價(jià)值觀?
來自北京大學(xué)王選計(jì)算機(jī)研究所王勇濤團(tuán)隊(duì)的最新工作 KnowVal 給出了一種有效可行的方案。
![]()
- 論文標(biāo)題:KnowVal: A Knowledge-Augmented and Value-Guided Autonomous Driving System
- 論文鏈接:
- https://arxiv.org/abs/2512.20299
本工作提出了一種新型自動(dòng)駕駛系統(tǒng) KnowVal,該系統(tǒng)通過感知模塊與知識檢索模塊的協(xié)同作用,實(shí)現(xiàn)視覺 - 語言推理能力。
團(tuán)隊(duì)構(gòu)建了涵蓋交通法規(guī)、防御性駕駛原則與道德考量的綜合駕駛知識圖譜,并為其開發(fā)了高效的基于大型語言模型的檢索機(jī)制。通過設(shè)計(jì)集成世界模型與價(jià)值模型的規(guī)劃器,從而實(shí)現(xiàn)價(jià)值對齊決策。同時(shí)構(gòu)建了人類偏好數(shù)據(jù)集用于訓(xùn)練價(jià)值模型。
實(shí)驗(yàn)表明,KnowVal 兼容現(xiàn)有的端到端和 VLA 方法,在 nuScenes 數(shù)據(jù)集上實(shí)現(xiàn)了最低碰撞率,并在 Bench2Drive 基準(zhǔn)測試中取得了最先進(jìn)的性能表現(xiàn)。
![]()
KnowVal 系統(tǒng)框架:
開放三維感知與知識檢索
相互引導(dǎo)的視覺 - 語言推理
相比于當(dāng)前主流的端到端自動(dòng)駕駛系統(tǒng)和視覺 - 語言 - 動(dòng)作(VLA)系統(tǒng),KnowVal 將視覺 - 語言范式升級為開放三維感知 - 知識檢索范式,并通過感知和檢索的相互引導(dǎo),實(shí)現(xiàn)了基礎(chǔ)的視覺 - 語言推理:
![]()
檢索引導(dǎo)的開放世界感知
通過自動(dòng)駕駛領(lǐng)域?qū)S酶兄烷_放式三維感知,能夠抽取常見實(shí)例與長尾實(shí)例的 3D 目標(biāo)檢測結(jié)果與實(shí)例特征,以及面向開放世界的全場景占據(jù)柵格預(yù)測與體素特征,抽取特征保證了整個(gè)系統(tǒng)的特征傳遞與可導(dǎo);同時(shí),通過利用輕型 VLM 實(shí)現(xiàn)的抽象元素理解,能夠?qū)ι弦粫r(shí)間幀知識檢索分支要求的信息進(jìn)行補(bǔ)充,針對「是否是隧道、橋梁場景?是否是夜間場景?」等抽象概念進(jìn)行自然語言描述。
感知引導(dǎo)的知識圖譜檢索
將感知信息進(jìn)行自然語言化,對包含了法律法規(guī)、道德原則、防御性駕駛原則等知識的知識圖譜進(jìn)行檢索,得到多條相關(guān)性由高到低排列的知識條目以及其 Token。
基于世界預(yù)測和價(jià)值模型的軌跡規(guī)劃
通過規(guī)劃模塊和世界模型模塊的多輪迭代,得到多條候選自車軌跡、對應(yīng)的其他物體的運(yùn)動(dòng)預(yù)測與隱式世界狀態(tài)。價(jià)值模型以上述信息為輸入,針對每條候選軌跡和檢索得到的知識,進(jìn)行價(jià)值評估,最終選定規(guī)劃軌跡。
該系統(tǒng)的各個(gè)模塊之間保持了顯式結(jié)果和隱式特征的共同傳遞,是可端到端微調(diào)的 3D 視覺 - 語言 - 動(dòng)作框架。
駕駛知識圖譜構(gòu)建與知識檢索
![]()
作者團(tuán)隊(duì)收集了多樣化的駕駛相關(guān)資源——包括國家現(xiàn)行交通法律法規(guī)、防御性駕駛原則、道德準(zhǔn)則以及經(jīng)驗(yàn)知識訪談——并依據(jù)文本結(jié)構(gòu)構(gòu)建了初始的知識森林。
隨后利用大語言模型抽取實(shí)體并定義節(jié)點(diǎn)與邊,形成結(jié)構(gòu)化的知識圖譜。在推理過程中,KnowVal 生成富含三維感知信息的自然語言查詢,通過實(shí)體抽取、知識條目過濾與向量化,從知識圖譜中檢索相關(guān)條目,并按相關(guān)性降序進(jìn)行排序。
價(jià)值模型構(gòu)建與
基于價(jià)值模型的軌跡規(guī)劃
![]()
KnowVal 提供了一種與現(xiàn)有端到端和 VLA 模型兼容的改造方式,針對其軌跡規(guī)劃 Transformer 或 RNN 進(jìn)行改造,引入對自車查詢疊加的多條預(yù)設(shè)高斯噪聲和多樣性約束損失函數(shù),使其具備生成多樣化候選軌跡的能力。
KnowVal 構(gòu)建了一個(gè)大規(guī)模駕駛價(jià)值偏好數(shù)據(jù)集,用以訓(xùn)練價(jià)值模型。數(shù)據(jù)集選取了多個(gè)自動(dòng)駕駛真實(shí)場景數(shù)據(jù),通過規(guī)劃模型預(yù)測和隨機(jī)生成的方式獲取多條軌跡,并保存其相應(yīng)的場景狀態(tài)(隱式特征向量與顯式鳥瞰渲染圖),并利用前述的檢索方法得到多條知識,為每個(gè)軌跡 - 知識對進(jìn)行介于 -1 到 1 之間的價(jià)值評分標(biāo)注,最終得到包含 16 萬個(gè)軌跡 - 知識對的數(shù)據(jù)集。
模型推理時(shí),該模塊以構(gòu)造的多條自車特征和感知得到的實(shí)例特征與作為查詢,以感知得到的全部信息作為鍵 - 值,通過規(guī)劃模塊和世界模型模塊的多輪迭代,得到多條候選自車軌跡、對應(yīng)的其他物體的運(yùn)動(dòng)預(yù)測與隱式世界狀態(tài);價(jià)值模型以上述信息為輸入,針對每條候選軌跡和檢索得到的每條知識,進(jìn)行價(jià)值評估,并計(jì)算每條軌跡的降序加權(quán)平均分?jǐn)?shù),以最終選定規(guī)劃軌跡。
實(shí)驗(yàn)結(jié)果
作者團(tuán)隊(duì)將 KnowVal 框架應(yīng)用至 GenAD、HENet++ 與 SimLingo 三個(gè)基線模型,并在 nuScenes 開環(huán)端到端駕駛基準(zhǔn)和 Bench2Drive 閉環(huán)端到端駕駛基準(zhǔn)上進(jìn)行了測試。KnowVal 范式能夠在 nuScenes 上取得最低的駕駛碰撞率,并在 Bench2Drive 上取得最高的駕駛分?jǐn)?shù)和成功率。
![]()
![]()
現(xiàn)有基準(zhǔn)測試對于法律和道德行為的評估并不夠全面,因此,作者也提供了幾個(gè)定性分析樣例,以說明 KnowVal 的實(shí)際效果:
![]()
上圖中兩個(gè)樣例,前者是在 nuScenes 真實(shí)數(shù)據(jù)上通過場景編輯得到,測試智能駕駛系統(tǒng)是否能夠在路過積水時(shí)減速慢行、以免濺到行人;后者是在 CARLA 模擬器中隧道場景進(jìn)行的測試,測試智能駕駛系統(tǒng)是否會(huì)遵循「隧道內(nèi) / 實(shí)線車道不能變道」的法律法規(guī)。實(shí)驗(yàn)結(jié)果說明,原本無法正確處理這些情況的端到端智駕模型,增加了 KnowVal 的知識檢索與價(jià)值評估后,能夠正確應(yīng)對這些情形。
作者介紹
該論文的第一作者和通訊作者均來自北京大學(xué)王選計(jì)算機(jī)研究所的 VDIG (Visual Data Interpreting and Generation) 實(shí)驗(yàn)室,第一作者為北京大學(xué)博士生夏仲禹,通訊作者為博士生導(dǎo)師王勇濤副研究員。VDIG 實(shí)驗(yàn)室近年來在 CVPR、NeurIPS、IJCV、ICCV、ICML、AAAI、ECCV 等頂會(huì)頂刊上有多項(xiàng)重量級成果發(fā)表,多次榮獲國內(nèi)外 CV 領(lǐng)域重量級競賽的冠亞軍獎(jiǎng)項(xiàng),與國內(nèi)外知名科研機(jī)構(gòu)和企業(yè)廣泛開展合作。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.