![]()
在前段時(shí)間的2025智能網(wǎng)聯(lián)汽車大會(huì)上,前工信部部長苗圩再次給多傳感器融合方案站臺(tái),引發(fā)了部分鍵盤俠的不滿。
這種爭議說明,在日常行車任務(wù)中,純視覺方案和帶激光雷達(dá)的多傳感器融合方案的實(shí)際表現(xiàn)基本上在同一個(gè)水平線,
要不然,這一架也不至于吵了這么多年。
鑒于行走的第一性原理代言人馬斯克多年來始終力挺純視覺方案,鄙視激光雷達(dá)。
今天,我們搬出更為重磅的第一性原理-空間智能,看看在這個(gè)全新的維度和視角之下,激光雷達(dá)的價(jià)值和作用到底體現(xiàn)在哪兒。
身體永遠(yuǎn)比語言更誠實(shí)。
近日,小鵬汽車公開宣布其圖靈AI智駕轉(zhuǎn)向世界模型,意味著曾經(jīng)被理想、小鵬和元戎啟行們力挺的VLA技術(shù)路線完敗于華為和特斯拉力挺的世界模型。
之所以會(huì)出現(xiàn)這樣的局面,是因?yàn)楹蚔LA的核心-語言智能相比,世界模型的核心-空間智能顯然更加接近駕駛?cè)蝿?wù)的本質(zhì)。
![]()
在語言智能和空間智能這兩種智能形式里,語言智能以一維序列信息處理抽象的符號(hào)和邏輯,空間智能重在理解物體在三維空間中的位置、形狀、深度、運(yùn)動(dòng)等幾何屬性以及各類物體之間的物理關(guān)系。
很顯然,比起一維的語言智能,三維的空間智能更加適合自動(dòng)駕駛這種需要在三維空間中完成的任務(wù)。
![]()
站在空間智能的視角下,可直接提供三維信息的激光雷達(dá)正是為自動(dòng)駕駛系統(tǒng)提供三維空間理解能力、構(gòu)建空間智能的核心傳感器。
通過發(fā)射激光束并測量其返回時(shí)間,激光雷達(dá)能直接生成周圍環(huán)境的三維點(diǎn)云,每個(gè)點(diǎn)都包含精確的XYZ坐標(biāo),相當(dāng)于為車輛實(shí)時(shí)繪制出高精度的幾何素描。
這種基于物理測量的深度信息意味著原生的三維能力,在準(zhǔn)確性、可靠性和穩(wěn)定性上,優(yōu)于只能提供二維信息、并通過算法間接推斷三維深度的攝像頭傳感器。
![]()
這種維度上的天然優(yōu)勢,是視覺方案的支持者無法回避的。
有關(guān)維度之間的差異,家長們應(yīng)該是門清的。
輔導(dǎo)過娃娃作業(yè)的朋友們都知道,在小學(xué)六年級(jí)的時(shí)候,孩子們會(huì)學(xué)習(xí)點(diǎn)動(dòng)成線、線動(dòng)成面、面動(dòng)成體的概念。
一條線中有無數(shù)個(gè)點(diǎn),一個(gè)面里有無數(shù)條線,一個(gè)立體中又有無數(shù)個(gè)面。
從 0.5維(點(diǎn))到一維(線),從一維到二維(面),再從二維到三維(體),維度的每一次躍遷,信息的豐富度都得到了無數(shù)倍的延展。
![]()
說完三維建模,再來看行為預(yù)判。
地平線掌門人余凱高屋建瓴地指出,“預(yù)判”才是L3、L4高等級(jí)自動(dòng)駕駛的關(guān)鍵。
也就是說,自動(dòng)駕駛系統(tǒng)需要基于距離和速度追蹤行人、車輛的運(yùn)動(dòng)軌跡,預(yù)測其下一步意圖,才能實(shí)現(xiàn)安全、高效、舒適的駕駛體驗(yàn)。
在對自動(dòng)駕駛的決策規(guī)劃至關(guān)重要的測距和速度測量方面,激光雷達(dá)同樣具備天然的高精度優(yōu)勢。
從空間智能需要的三維空間理解能力來看,依賴強(qiáng)大的算法腦補(bǔ)、反推深度和幾何關(guān)系,識(shí)別物體、進(jìn)行測距和速度測量的視覺方案天然不如原生具備三維測量能力的多傳感器融合方案。
攝像頭提供豐富的語義信息,激光雷達(dá)提供精確的幾何信息,兩者融合,理論上可以實(shí)現(xiàn)更好的效果。
既然如此,為何特斯拉、小鵬們還堅(jiān)持視覺方案呢?
理想很豐滿,現(xiàn)實(shí)很骨感。
當(dāng)理論的指導(dǎo)落實(shí)到具體的實(shí)踐上,在自動(dòng)駕駛算法完成的核心任務(wù)-3D 目標(biāo)檢測、語義分割以及軌跡預(yù)測上,多傳感器融合方案理論上的1+1>2的效果或許真不如只有其一沒有其二的視覺方案。
原因無他,數(shù)據(jù)融合的問題實(shí)在太難了。
![]()
從當(dāng)前硬件系統(tǒng)的實(shí)現(xiàn)和學(xué)術(shù)界的研究工作來看,如何有效地融合攝像頭、激光雷達(dá)、毫米波雷達(dá)這些多模態(tài)傳感器的數(shù)據(jù)并非易事。
首先也是最重要的,如果攝像頭和激光雷達(dá)安裝在不同的位置上,由高度、角度不一帶來的視角差異會(huì)導(dǎo)致不同傳感器觀測到的環(huán)境目標(biāo)可能不同。
比如激光雷達(dá)安裝在車頂位置而相機(jī)安裝在保險(xiǎn)杠位置(或者相反),當(dāng)前方有障礙物時(shí),由于相機(jī)和激光雷達(dá)存在高度的差異,兩者觀測到的環(huán)境目標(biāo)可能是不同的,如果單純利用相機(jī)和激光雷達(dá)的外參進(jìn)行投影融合,就會(huì)產(chǎn)生因遮擋導(dǎo)致探測的目標(biāo)不一致的問題。
![]()
這個(gè)難題或許正是小鵬汽車拋棄激光雷達(dá)、轉(zhuǎn)向純視覺方案的重要原因之一。
其它幾乎所有車企都選擇將激光雷達(dá)安裝在車頂上,與前視攝像頭相近的位置,大大緩解了因安裝位置不一致導(dǎo)致的空間對齊問題。
但是,小鵬汽車把兩顆角毫米波雷達(dá)安裝在前保險(xiǎn)杠兩側(cè),和前視攝像頭的視野存在相當(dāng)大的不同。
這時(shí),它必然遭遇因安裝位置不同導(dǎo)致環(huán)境目標(biāo)感知不同這種很難克服的難題。
![]()
除了安裝位置導(dǎo)致的橫看成嶺側(cè)成峰、遠(yuǎn)近高低各不同,不同傳感器在時(shí)空相位、數(shù)據(jù)幀率、信息尺度上也會(huì)存在差異。
激光雷達(dá)的幀率在10-20Hz之間,攝像頭的幀率在30-60Hz之間,激光雷達(dá)和攝像頭這兩個(gè)傳感器的數(shù)據(jù)在時(shí)間維度上天然就是非對齊的,這種效應(yīng)在汽車快速運(yùn)動(dòng)下表現(xiàn)得尤其明顯。
因此,簡單地利用內(nèi)外參將點(diǎn)云投影到圖像平面,會(huì)導(dǎo)致點(diǎn)云和像素?zé)o法對齊的情況。
![]()
在硬件層面,可以為所有傳感器都提供統(tǒng)一的時(shí)間基準(zhǔn),再通過精確時(shí)間協(xié)議或傳感器硬件觸發(fā)接口直接控制傳感器在相同的時(shí)刻進(jìn)行采集。
在軟件層面,可以通過時(shí)間戳對齊與數(shù)據(jù)插值,為不同時(shí)間戳的數(shù)據(jù)建立關(guān)聯(lián),并通過算法估計(jì)或預(yù)測同一時(shí)刻的數(shù)據(jù)狀態(tài)。
如果不采用前融合,可以將不同傳感器提取的特征映射到統(tǒng)一的空間后,再在BEV或OCC空間內(nèi)進(jìn)行融合。
![]()
至于其它難題,兵來將擋,水來土掩,總歸是有辦法解決的。
作為曾經(jīng)豪言要將特斯拉打得找不著東的小鵬汽車致敬的標(biāo)桿,特斯拉執(zhí)拗地選擇純視覺路線。
一則是因?yàn)檫^去的激光雷達(dá)太貴,馬斯克沒有預(yù)見到激光雷達(dá)的價(jià)格會(huì)在中國產(chǎn)業(yè)鏈的帶動(dòng)下呈現(xiàn)近乎雪崩式的下降。
二則是為了規(guī)避激光雷達(dá)和攝像頭數(shù)據(jù)不一致的風(fēng)險(xiǎn)。
第一性原理并非特斯拉的出發(fā)點(diǎn)。
基于第一性原理,安全的關(guān)鍵在冗余,多樣性是保證魯棒性的關(guān)鍵,既然如此,為什么還要排斥激光雷達(dá)呢?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.