
撰文 | Bruce 編輯|馬青竹
“華為不會(huì)走向VLA的路徑。我們認(rèn)為這樣的路徑看似取巧,其實(shí)并不是走向真正自動(dòng)駕駛的路徑。華為更看重WA,也就是World Action,中間省掉language這個(gè)環(huán)節(jié)。”
近日,華為智能汽車解決方案BU CEO靳玉志談及技術(shù)路線時(shí)稱。
目前,理想、小鵬、卓馭和元戎啟行等選擇了VLA的技術(shù)方向。而且小鵬、理想近期均宣布推送VLA。
與上述幾家不同,華為ADS4采用了WEWA技術(shù)架構(gòu)。據(jù)官方介紹,這一架構(gòu)可使端到端時(shí)延降低50%,通行效率提升20%,重剎率降低30%。
8月下旬,靳玉志在社交平臺(tái)預(yù)告,“下個(gè)月,首批ADS4將陸續(xù)推送。”
伴隨華為ADS4到來,WEWA將影響新車尊界S800、問界M8等,并通過OTA,覆蓋已搭載華為乾崑方案的合作車型。
而根據(jù)靳玉志公布的數(shù)據(jù),搭載華為乾崑智駕的汽車數(shù)量已正式突破百萬(wàn)輛。從上車規(guī)模看,WEWA的影響不容小覷。
那么,WEWA究竟與VLA有何不同,華為乾崑為何會(huì)選擇這一架構(gòu)?
生成數(shù)據(jù),解決“難例”場(chǎng)景
靳玉志曾對(duì)WEWA如此評(píng)價(jià):“比VLM、VLA更智能。”
WEWA架構(gòu)由兩部分組成,其一,World Engine(WE),指云端的“世界引擎”;其二,World Action Model(WA),指車端的“世界行為模型”。
![]()
世界引擎基于“難例”擴(kuò)散生成模型,可生成“高質(zhì)量、高密度”的“難例”場(chǎng)景數(shù)據(jù)。
華為乾崑官方解釋,所謂“難例”場(chǎng)景,包括前車急剎、突然出現(xiàn)的行人、無保護(hù)左轉(zhuǎn)等。并表示,真正對(duì)安全產(chǎn)生威脅的“難例”場(chǎng)景十分罕見,難以人工采集。
靳玉志披露的數(shù)據(jù)顯示,“華為(今年4月)已在云端世界引擎進(jìn)行了6億公里的高速L3仿真與驗(yàn)證,已為高速L3量產(chǎn)做好準(zhǔn)備。”
值得注意的是,采用VLA路徑的廠商(如理想、元戎啟行)也同樣重視仿真技術(shù),特別是通過世界模型生成極端場(chǎng)景數(shù)據(jù)來訓(xùn)練和強(qiáng)化模型。
比如,理想會(huì)通過生成方式獲得仿真數(shù)據(jù),并用于訓(xùn)練模型。理想的MindVLA,也會(huì)基于仿真實(shí)現(xiàn)閉環(huán)強(qiáng)化學(xué)習(xí)。
通過自研的世界模型仿真系統(tǒng),理想復(fù)刻了“99%的中國(guó)路況”,生成2000余種如暴雨淹路、隧道失效等傳統(tǒng)方案難以解決的長(zhǎng)尾場(chǎng)景。
不過,在仿真基礎(chǔ)上,VLA路線的各家更依賴真實(shí)行駛數(shù)據(jù)。
![]()
比如,元戎啟行認(rèn)為,現(xiàn)實(shí)世界中很多復(fù)雜微妙的臨界態(tài),模擬器很難被描述。
臨界態(tài),主要指處于性能邊界或安全邊界時(shí)所產(chǎn)生和依賴的數(shù)據(jù)。比如,要模擬綢緞,一塊布要用顯卡渲染,需要把布拆成幾十上百萬(wàn)份,在現(xiàn)實(shí)世界中采集,更為高效。
卓馭的VLA,同樣依賴大規(guī)模真實(shí)道路場(chǎng)景數(shù)據(jù)訓(xùn)練,具有數(shù)十億參數(shù)規(guī)模。通過融合視覺和大語(yǔ)言模型的能力,VLA可解析行人橫穿、道路施工、特殊車輛等長(zhǎng)尾場(chǎng)景。
所以,華為的WEWA更強(qiáng)調(diào)生成仿真,VLA偏好真實(shí)路測(cè)數(shù)據(jù),是區(qū)別之一。但真實(shí)路測(cè)與仿真并非截然對(duì)立,而是不同技術(shù)路線各有側(cè)重和組合。
基模型、多模態(tài)與算力平臺(tái)
模型控車方面,這兩個(gè)路線也有區(qū)別。
WEWA采用的世界行為模型,其工作流程是,基于攝像頭、雷達(dá)/激光雷達(dá)、車內(nèi)/外麥克風(fēng)等獲得的全模態(tài)感知數(shù)據(jù),直接推理和決策。
這一過程中,主要涉及三項(xiàng)能力。
基于專為智能輔助駕駛和自動(dòng)駕駛打造的原生基模型的能力,可以做到更低的時(shí)延。
全模態(tài)(視覺、聽覺、觸覺)感知能力,可構(gòu)建全維度環(huán)境模型。
MoE多專家能力,可根據(jù)實(shí)時(shí)環(huán)境調(diào)用最優(yōu)決策專家,降低計(jì)算負(fù)載,提高決策速度和準(zhǔn)確性,提升響應(yīng)能力。
在云端生成各類“難例”場(chǎng)景數(shù)據(jù),用于訓(xùn)練大模型。之后,將訓(xùn)練好的云端世界模型,通過蒸餾部署到車端。再由車端模型通過多模態(tài)感知,基于MoE等能力做出決策,輸出行駛軌跡等。
VLA模型因其語(yǔ)言模型的特性,其推理過程可能更易于被理解和解釋。而WEWA架構(gòu)的世界行為模型則側(cè)重于對(duì)物理世界的直接推演和預(yù)測(cè),如何呈現(xiàn)和輸出思維鏈,有待進(jìn)一步跟蹤觀察。
WEWA與VLA的區(qū)別,還體現(xiàn)在算力平臺(tái)層面。VLA模型的部署,目前主要在英偉達(dá)Thor、圖靈等新一代算力平臺(tái)上。
原因在于,模型參數(shù)規(guī)模變大對(duì)功耗和并行計(jì)算提出要求。同時(shí),需要有高效的硬件加速設(shè)計(jì),讓系統(tǒng)更好地做實(shí)時(shí)數(shù)據(jù)分析。Thor U、圖靈等新一代算力平臺(tái)符合這一需求。
WA模型可以直接從視覺等信息輸入實(shí)現(xiàn)控車,無需轉(zhuǎn)換成語(yǔ)言符號(hào),避免了精度損失和信息轉(zhuǎn)換的延遲。也許可以降低對(duì)大算力的依賴。
拼體驗(yàn),“Talk is cheap”
無論何種架構(gòu),最終還要看體驗(yàn)如何。
基于WEWA的華為ADS4,能力再次進(jìn)化。在靳玉志發(fā)布的一則視頻中,華為ADS4 Beta避開了路上一個(gè)下水道井蓋。
![]()
“在WEWA架構(gòu)的加持下,對(duì)突發(fā)狀況的處理非常類人,甚至‘超人’。避開了井蓋,并減速通過,整個(gè)過程行云流水,非常絲滑。”靳玉志表示。
VLA的體驗(yàn)同樣揭開了面紗。
就在靳玉志宣布華為ADS4推送計(jì)劃的前一天,小鵬宣布,“全新小鵬P7和小鵬G7的全場(chǎng)景VLA來了”。
從小鵬公布的信息看,其VLA可以實(shí)現(xiàn)的功能,主要包括預(yù)判遮擋盲區(qū)的“鬼探頭”、路口盲區(qū)提前減速、面對(duì)積水路面提前減速等。
理想也公布了VLA的進(jìn)展,將于本月開啟全量推送。搭載VLA的理想i8,可以在無燈控路口、無保護(hù)右轉(zhuǎn)燈場(chǎng)景以更類人的方式通過。
可以預(yù)見,新一輪功能體驗(yàn)對(duì)決很快將至。
值得注意,Momenta創(chuàng)始人、CEO曹旭東近期發(fā)聲表示:
“VLM、VLA是很好的方向,但是錦上添花的方向。提升要用強(qiáng)化學(xué)習(xí),把端到端大模型放到通過海量真實(shí)數(shù)據(jù)構(gòu)建起來的仿真環(huán)境去做探索,成功就給獎(jiǎng)勵(lì),失敗就給懲罰,學(xué)習(xí)到什么是安全駕駛和高效駕駛。把模型的上限和安全的上限提升100到1000倍,甚至1000到10000倍。”
無論WEWA,還是VLA,一位智駕從業(yè)人士告訴筆者,部分觀點(diǎn)甚至沒有討論的必要,“Talk is cheap,在車上用起來才是硬道理。”
—THE END—
出行百人會(huì) | AutocarMax
追蹤汽?出行產(chǎn)業(yè)鏈進(jìn)化,關(guān)注新產(chǎn)品、新科技、商業(yè)邏輯與商業(yè)人物,影響圈層中有影響力的人。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.