
撰文 | 張祥威 編輯|馬青竹
2025年最后一個(gè)月,部分車企獲得L3級(jí)自動(dòng)駕駛路測(cè)牌照,為明年的新一輪競(jìng)賽埋下伏筆。
另一邊,無人駕駛公司也在持續(xù)打磨L4。
最近,Waymo的無人駕駛出租車因大規(guī)模停電,在十字路口紅綠燈全黑時(shí)出現(xiàn)大面積“趴窩”,引發(fā)嚴(yán)重?fù)矶隆?/p>
![]()
有行業(yè)人士分析,深層問題在于其采用“規(guī)則驅(qū)動(dòng)”而非AI驅(qū)動(dòng)。
可見智駕仍需進(jìn)化,至少從技術(shù)角度看,仍有不少謎題待解。
諸如:
“端到端+VLM”的下一站,是不是VLA?
“一段式端到端+強(qiáng)化學(xué)習(xí)”,是否比VLA更先進(jìn)?
世界行為模型和VLA相比究竟有何不同?
VLA和世界模型,究竟誰才是更優(yōu)解?
當(dāng)智駕領(lǐng)域疑云彌漫,厘清問題,可以更好地辨別孰強(qiáng)孰弱,也許還能照見“陷阱”。
那么,智駕進(jìn)化到2025年底,究竟有沒有理出一條清晰的路線圖?
大亂斗
12月下旬,英偉達(dá)全球副總裁、汽車事業(yè)部負(fù)責(zé)人吳新宙,在上海浦東測(cè)試了多家車企和供應(yīng)商的智駕方案。據(jù)悉,其對(duì)文遠(yuǎn)知行、地平線的方案評(píng)價(jià)頗高。
但過去一年的經(jīng)驗(yàn)證明,單說體驗(yàn)層面,似乎有點(diǎn)你追我趕,名次波動(dòng)頻繁,其實(shí)難以直接斷言不同方案的優(yōu)劣。
例如,基于規(guī)則驅(qū)動(dòng)的智駕表現(xiàn),在某個(gè)時(shí)間段內(nèi)也許比基于數(shù)據(jù)驅(qū)動(dòng)更加穩(wěn)定。不同代際的模型架構(gòu),在某個(gè)時(shí)間點(diǎn)也會(huì)出現(xiàn)“舊”打敗“新”的情況。
即便就技術(shù)本身而言,行業(yè)有共識(shí),更不缺爭(zhēng)議。
去年還被各家一致夸贊的“端到端”,如今被理想、小馬智行等競(jìng)相指出存在技術(shù)局限。
行業(yè)普遍認(rèn)為:“端到端的本質(zhì)是模仿學(xué)習(xí),存在overfit(過擬合)和不可解釋等問題。”面對(duì)訓(xùn)練過的場(chǎng)景會(huì)表現(xiàn)出色,但遇到從未在訓(xùn)練集中見過的新場(chǎng)景時(shí),就有可能導(dǎo)致決策錯(cuò)誤。一句話,學(xué)得太死板。
邁入「端到端」時(shí)代值得慶祝,但需補(bǔ)充新的能力,各家的技術(shù)路線由此分化。
截至目前,據(jù)《出行百人會(huì)/AutocarMax》不完全統(tǒng)計(jì),市面上的核心智駕模型至少有6種,分別為VLA、WEWA、“端到端+強(qiáng)化學(xué)習(xí)”和世界模型等。
![]()
一類采用“端到端+VLM+強(qiáng)化學(xué)習(xí)”。如地平線,在一段式端到端的基礎(chǔ)上,借助云端的“VLM+強(qiáng)化學(xué)習(xí)”來訓(xùn)練語義模型,從而處理可變車道等需要理解交通規(guī)則的場(chǎng)景。
另一類堅(jiān)信VLA。這一技術(shù)陣營(yíng)包括理想、小鵬、卓馭和元戎啟行等。其核心觀點(diǎn)為,“端到端+VLM”存在延時(shí)和信息損失,可支持實(shí)現(xiàn)L3,但要實(shí)現(xiàn)L4則離不開VLA。
值得注意的是,對(duì)于“端到端+VLM”的協(xié)作,早期有人將其比喻為教練坐在副駕指揮駕駛員開車,后來也有人將其比作賽車手和領(lǐng)航員(參數(shù)丨圖片)的配合關(guān)系。無論如何,基本可以認(rèn)為,端到端的確存在能力的局限性。
據(jù)悉,小米汽車正一邊布局“端到端+世界模型+強(qiáng)化學(xué)習(xí)”,同時(shí)也在投入VLA研發(fā)。小米汽車智能駕駛VLA負(fù)責(zé)人陳龍指出,其要做的VLA是將端到端和VLM的能力融合在一起,如果VLA在各種場(chǎng)景下都比端到端好,那么將全面切向VLA這一新方案。
![]()
還有一類采用“端到端+強(qiáng)化學(xué)習(xí)”,代表公司是Momenta。
其創(chuàng)始人、CEO曹旭東認(rèn)為,“VLM、VLA是很好的方向,但屬于錦上添花。想要提升,要用到強(qiáng)化學(xué)習(xí),把端到端大模型放到通過海量真實(shí)數(shù)據(jù)構(gòu)建起來的仿真環(huán)境去做探索。”
Momenta這種訓(xùn)練大模型的方法,類似給ChatGPT喂大量數(shù)據(jù),最終產(chǎn)生類人的通識(shí)。
至于采用WEWA技術(shù)的公司,代表是華為。
其做法是,輸入視覺、“觸覺”等多模態(tài)信息,直接輸出控車指令。這一過程中,跳過語言轉(zhuǎn)換環(huán)節(jié)(VLA會(huì)將視頻等信息轉(zhuǎn)化為語言Token,然后輸出控車指令),以避免精度損失和信息轉(zhuǎn)換延遲。
華為智能汽車解決方案BU CEO靳玉志曾表態(tài),“不會(huì)走VLA的路徑,這樣的路徑看似取巧,其實(shí)并不是走向真正自動(dòng)駕駛的路徑。華為更看重WA,也就是World Action。”
![]()
最后還有一類選擇世界模型的公司,如小馬智行和蔚來。
小馬智行副總裁、北京研發(fā)中心負(fù)責(zé)人張寧曾告訴我們,公司在2023年布局端到端研發(fā),后來發(fā)現(xiàn)其不能解決所有問題,便轉(zhuǎn)向世界模型。
從規(guī)則驅(qū)動(dòng),到數(shù)據(jù)驅(qū)動(dòng),如今又來到“認(rèn)知驅(qū)動(dòng)”,智駕技術(shù)持續(xù)進(jìn)化,背后有沒有一些共識(shí)?
共識(shí)
上述各家方案,雖稱謂不一,但均未繞開“端到端、VLM、VLA、世界模型、強(qiáng)化學(xué)習(xí)”等技術(shù)范疇。拆解這些技術(shù),可以發(fā)現(xiàn)一些共識(shí)。
共識(shí)一,智駕模型不僅要會(huì)模仿,還要能“理解”。
陳龍?jiān)诩尤胄∶灼嚽埃谟詣?dòng)駕駛初創(chuàng)企業(yè)Wayve供職,不僅與團(tuán)隊(duì)共同提出了“視覺-語言-行為”的模型框架,還是LINGO系列模型的核心開發(fā)者之一。
他認(rèn)為,“端到端就像教動(dòng)物學(xué)開車,但動(dòng)物并不理解開車背后的行為。而VLA是在學(xué)習(xí)了人類世界的知識(shí)、交通規(guī)則、價(jià)值觀的基礎(chǔ)上,同時(shí)具備推理能力。”
這一觀點(diǎn)與理想類似。
![]()
前理想汽車智能駕駛技術(shù)負(fù)責(zé)人賈鵬,曾在拆解算法原型時(shí)表示:
“端到端模型的目的是學(xué)習(xí)行駛軌跡,但行駛軌跡是不確定的,即使同一個(gè)司機(jī),在不同的場(chǎng)景、不同的時(shí)間,駕駛行為也不太一樣。如果只是一味地通過模仿學(xué)習(xí)人,只能模仿對(duì)的,不知道什么是錯(cuò)的,會(huì)出現(xiàn)很多詭異的駕駛行為。”
基于此,理想在訓(xùn)練過程中引入強(qiáng)化學(xué)習(xí),讓系統(tǒng)知道對(duì)與錯(cuò),從而得出一個(gè)駕駛技巧、價(jià)值觀均正確的模型。
共識(shí)二,目標(biāo)逐漸趨同,要打造智能駕駛領(lǐng)域的基礎(chǔ)模型。
近日,地平線創(chuàng)始人余凱與元戎啟行創(chuàng)始人周光討論智駕前景時(shí),二人一致認(rèn)為,如果能迅速構(gòu)建基礎(chǔ)模型,智駕將從L2+更快通往L4,L3的存在階段將變得很短暫。
目前,各家的做法可大致分為幾項(xiàng):
通過去掉人工監(jiān)督和標(biāo)注等做法,減少信息損失和時(shí)延,提升模型的效率;
通過更大規(guī)模的優(yōu)質(zhì)數(shù)據(jù),覆蓋更多corner case,提升模型的泛化能力;
通過預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí)或世界學(xué)習(xí)等,提升模型對(duì)物理世界規(guī)律的理解能力;
通過思維鏈、VLA或世界模型等,提升長(zhǎng)時(shí)序推理能力。
只不過細(xì)節(jié)有差別。例如,Momenta強(qiáng)調(diào)的強(qiáng)化學(xué)習(xí),主要通過海量真實(shí)數(shù)據(jù)構(gòu)建起來的仿真環(huán)境來訓(xùn)練模型,這是因?yàn)槠湟呀?jīng)搭載在足夠多的量產(chǎn)車型上。
![]()
而小馬智行提出的世界模型,據(jù)我們了解更接近強(qiáng)化學(xué)習(xí)。這意味著,除了采集數(shù)據(jù)的規(guī)模不同,兩家的目標(biāo)存在相似性。
如果跳出智駕,在人形機(jī)器人等更廣泛的具身智能領(lǐng)域,則在研發(fā)“通用模型”。一種設(shè)想是,未來或許會(huì)出現(xiàn)由人形機(jī)器人開車的情況。
未來,究竟是汽車機(jī)器人自己行動(dòng),還是由人形機(jī)器人坐進(jìn)來開車,又或者是兩種可能性都會(huì)發(fā)生?
結(jié)語
智駕從陷入corner case的汪洋大海,到受ChatGPT啟示,借助大語言模型相對(duì)輕松地游走在數(shù)據(jù)海洋,再到現(xiàn)在,正忙于煉出一顆類人的駕駛大腦。
可以看到,模型開車的技巧在提升,已經(jīng)能在小路上做出博弈等動(dòng)作。也要看到,智駕領(lǐng)域的corner case并未被完全解決。
回看文章開頭的那些問題,有的由發(fā)展階段不同導(dǎo)致,也有的更多是技術(shù)細(xì)節(jié)的差別。在游戲沒有通關(guān)前,或許真的存在多種解法。無論如何,提升模型能力,才是根本。
—THE END—
出行百人會(huì) | AutocarMax
追蹤汽?出行產(chǎn)業(yè)鏈進(jìn)化,關(guān)注新產(chǎn)品、新科技、商業(yè)邏輯與商業(yè)人物,影響圈層中有影響力的人。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.