
![]()
這個世界唯一不變的就是變化。
隨著自動駕駛算法范式的演進(jìn),多年來主導(dǎo)自動駕駛系統(tǒng)迭代的數(shù)據(jù)閉環(huán)體系也出現(xiàn)了重大轉(zhuǎn)變。
謎底藏在謎面上,望文生義也能大致猜出數(shù)據(jù)閉環(huán)的定義,很顯然,數(shù)據(jù)閉環(huán)就是以數(shù)據(jù)為主體的循環(huán)體系。
再深入一些,自動駕駛數(shù)據(jù)閉環(huán)以數(shù)據(jù)為核心主體,使其流轉(zhuǎn)于采集、存儲、清洗、挖掘、標(biāo)注到模型訓(xùn)練、測試和部署上車的全過程。
通過閉環(huán)循環(huán)機(jī)制,對數(shù)據(jù)進(jìn)行系統(tǒng)性的流轉(zhuǎn)和全鏈路價值挖掘,形成自我增強(qiáng)的飛輪效應(yīng),驅(qū)動自動駕駛系統(tǒng)的迭代。
從輸入到輸出的完整閉環(huán),同學(xué)們是不是找到了一點費(fèi)曼學(xué)習(xí)法的影子了?
![]()
在日常生活里,一邊努力掙錢一邊追求幸福的大家經(jīng)常會迷失在手段和目的的哲學(xué)之思里,在自動駕駛數(shù)據(jù)閉環(huán)體系里,手段與目的卻遵循著辯證統(tǒng)一的邏輯。
一方面,數(shù)據(jù)作為模型進(jìn)化的手段和必要介質(zhì),充當(dāng)模型的燃料和錯題集,直接服務(wù)于算法短板修復(fù)的目的,模型訓(xùn)練才是數(shù)據(jù)閉環(huán)體系的核心目的;
另一方面,數(shù)據(jù)驅(qū)動模型的優(yōu)化,高質(zhì)量模型部署到車端之后,覆蓋更多的場景,吸引更多車輛加入數(shù)據(jù)收集的車隊,驅(qū)動車輛網(wǎng)絡(luò)采集更多更高質(zhì)量的數(shù)據(jù),模型本身又成了數(shù)據(jù)生產(chǎn)的工具。
![]()
以模型訓(xùn)練為中心,可以將數(shù)據(jù)閉環(huán)進(jìn)一步劃分為訓(xùn)練前、訓(xùn)練、訓(xùn)練后三個階段。
訓(xùn)練前這個大階段包含數(shù)據(jù)的觸發(fā)采集、脫敏處理、網(wǎng)絡(luò)傳輸、數(shù)據(jù)清洗、數(shù)據(jù)存儲、場景挖掘和數(shù)據(jù)標(biāo)注幾個小階段。
模型訓(xùn)練這個大階段包含預(yù)訓(xùn)練、后訓(xùn)練、強(qiáng)化訓(xùn)練三個小階段。
訓(xùn)練后這個大階段包含仿真測試、模型評估、集成部署三個小階段。
![]()
隨著自動駕駛算法由分模塊方案向端到端范式、傳統(tǒng)端到端向生成式AI大模型的轉(zhuǎn)變,數(shù)據(jù)閉環(huán)中有幾個關(guān)鍵節(jié)點發(fā)生了重大的演變。
數(shù)據(jù)是人工智能時代最為重要的核心資產(chǎn)。
不過,既然作為資產(chǎn),就要站在商業(yè)規(guī)律的角度,看看它產(chǎn)生的價值能不能有效地分?jǐn)偛杉鬏敗⑶逑础⑼诰蚝蜆?biāo)注的成本,形成有效的商業(yè)閉環(huán)。
事實上,隨著自動駕駛系統(tǒng)能力的升級,昔日的長尾場景越來越不能成其為Corner Case,導(dǎo)致實車采集的數(shù)據(jù)價值密度越來越低。
再疊加采集/存儲/標(biāo)注成本高、合規(guī)壓力大等一系列問題,自動駕駛數(shù)據(jù)的來源正在經(jīng)歷從“重實車采集”到“虛實融合”的轉(zhuǎn)型。
![]()
實車采集數(shù)據(jù)價值越來越低是自動駕駛系統(tǒng)能力升級導(dǎo)致的必然趨勢。
舉個例子,如果之前的系統(tǒng)無法很好地應(yīng)對下雨和下雪場景,下雨和下雪時觸發(fā)采集的駕駛場景數(shù)據(jù)都有很好的利用價值。
但隨著系統(tǒng)能力的進(jìn)步,以至于系統(tǒng)能夠很好地應(yīng)對下雨場景卻還不能很好地應(yīng)對下雪場景時。
那么,對于模型的迭代進(jìn)步而言,下雨時觸發(fā)采集的駕駛場景數(shù)據(jù)就基本上沒有了價值,下雪時觸發(fā)采集的駕駛場景數(shù)據(jù)才有真正的利用價值。
![]()
實車采集、傳輸、存儲、標(biāo)注成本高,僅有占比極低的數(shù)據(jù)為高價值有效數(shù)據(jù),且存在長尾覆蓋不足的缺陷。
在這樣的情況下,通過物理規(guī)則學(xué)習(xí)與生成對抗實現(xiàn)低成本、高保真場景重建和生成的世界模型應(yīng)運(yùn)而生,成了虛擬數(shù)據(jù)生成的核心引擎。
![]()
在這里,世界模型發(fā)揮的兩大作用是重建和生成,即利用NeRF和3D高斯濺射技術(shù),基于真實路采數(shù)據(jù)進(jìn)行場景重建,以及基于重建的場景,以Diffusion和Transformer技術(shù)進(jìn)行合成數(shù)據(jù)的生成,進(jìn)行長尾場景的補(bǔ)全和數(shù)據(jù)分布的優(yōu)化。
![]()
放眼未來,隨著世界模型能力的提升,在模型訓(xùn)練前這個階段,數(shù)據(jù)來源避實向虛的趨勢必將日益明顯。
對于自動駕駛數(shù)據(jù)閉環(huán),22年底橫空出世的生成式AI大模型堪稱改天換地、顛覆既有研發(fā)體系的大殺器。
在這之前,實車測試一直是自動駕駛數(shù)據(jù)閉環(huán)的主要工作流,不僅成本高、效率低,在很多場景下還會遭遇危險性十足、極大損害測試人員身體和心理健康的問題.
世界模型問世之后,一切都改變了。
![]()
在模型訓(xùn)練前的階段,世界模型以場景重建和生成做數(shù)據(jù)增強(qiáng),擴(kuò)大數(shù)據(jù)的數(shù)量和多樣性,給自動駕駛系統(tǒng)學(xué)習(xí)更多障礙物樣本與交通規(guī)則提供源源不斷的高質(zhì)量素材。
在模型訓(xùn)練后的階段,世界模型構(gòu)建具備高度4D時空一致性的數(shù)字孿生環(huán)境,相當(dāng)于打造了自動駕駛系統(tǒng)的考場,不僅可以憑借場景的完美復(fù)現(xiàn)助力閉環(huán)仿真測試,還能借助云端的高并發(fā)能力大幅度提升考試和測試的效率。
![]()
訓(xùn)練前階段,世界模型生成數(shù)據(jù)的目的主要是為了改善訓(xùn)練數(shù)據(jù)的配比和均勻性,其占比遠(yuǎn)小于實車數(shù)據(jù).
但在訓(xùn)練后階段,仿真測試的占比遠(yuǎn)遠(yuǎn)超過了實車測試。也就是說,如果認(rèn)為訓(xùn)練前的數(shù)據(jù)來源還是“虛實融合,以實為主”的話,訓(xùn)練后的模型驗證就已經(jīng)“脫實向虛”了。
這主要是由于,實車測試不僅成本高,無法完全復(fù)現(xiàn)發(fā)生問題時的場景,其效率還極其低下,根本無法滿足自動駕駛飛速發(fā)展的時代需求。
![]()
根據(jù)理想汽車的統(tǒng)計數(shù)據(jù),其2023年完全采用實車測試,測試成本為每公里18.4元。
進(jìn)入2025,以仿真測試為主,測試成本為每公里0.53元,下降了30倍有余。
接受媒體采訪時,理想汽車自動駕駛負(fù)責(zé)人郎咸朋表示理想汽車今年的實車測試?yán)锍讨挥袃扇f公里,其道理就來自于這里。
憑借在數(shù)據(jù)生成與仿真驗證兩大環(huán)節(jié)的革命性突破,世界模型破解了數(shù)據(jù)的困局,重構(gòu)了系統(tǒng)訓(xùn)練和測試的流程,儼然已成為自動駕駛數(shù)據(jù)閉環(huán)的核心引擎。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.