車東西(公眾號(hào):chedongxi)
作者 | Janson
編輯 | 志豪
英偉達(dá)要用“因果推理”重塑L4自動(dòng)駕駛?!
車東西12月3日消息,日前,英偉達(dá)(NVIDIA)研究團(tuán)隊(duì)正式發(fā)布并開源全新的視覺-語(yǔ)言-動(dòng)作(VLA)模型Alpamayo-R1,并明確宣布計(jì)劃在未來的更新中開源該模型及部分核心數(shù)據(jù)集。
![]()
▲Alpamayo-R1對(duì)應(yīng)的數(shù)據(jù)集已上傳至開源社區(qū)
目前,該模型對(duì)應(yīng)的數(shù)據(jù)集也已上傳至開源社區(qū),總大小約100TB,這也是英偉達(dá)首次將VLA模型進(jìn)行開源。
![]()
▲Alpamayo-R1模型架構(gòu)
這一舉措不僅打破了高端自動(dòng)駕駛模型的封閉高墻,更標(biāo)志著端到端自動(dòng)駕駛技術(shù)從單純的“模仿行為”邁向了具備深層“因果思考”的新階段。
對(duì)于自動(dòng)駕駛行業(yè)而言,Alpamayo-R1的出現(xiàn)直擊了當(dāng)前最令人頭疼的痛點(diǎn)——長(zhǎng)尾場(chǎng)景(Long-tail scenarios)下的安全性。
英偉達(dá)此次帶來的 Alpamayo-R1正是為了終結(jié)這一困境,而其交出的實(shí)測(cè)成績(jī)單也足夠令人信服。
![]()
▲Alpamayo-R1相對(duì)基線的提升明顯
在針對(duì)極高難度長(zhǎng)尾場(chǎng)景的測(cè)試中,AR1的規(guī)劃準(zhǔn)確率相比僅有軌跡預(yù)測(cè)的基線模型提升了整整12%;
在閉環(huán)仿真測(cè)試?yán)铮珹R1成功將車輛沖出道路的事故率降低了35%;
與其他車輛或行人的近距離危險(xiǎn)遭遇率也大幅減少了25%。
更值得一提的是,即便在集成復(fù)雜的推理大腦后,該模型在NVIDIA RTX 6000 Pro Blackwell車載硬件上依然保持了99毫秒的端到端超低延遲,完全滿足了實(shí)時(shí)自動(dòng)駕駛的嚴(yán)苛需求。
一、解決自動(dòng)駕駛端到端黑盒問題 引入因果鏈數(shù)據(jù)集
過去幾年,基于模仿學(xué)習(xí)的端到端大模型雖然通過堆砌數(shù)據(jù)量取得了顯著進(jìn)步,但它們本質(zhì)上更像是一個(gè)只會(huì)死記硬背的“黑盒”。
這些模型能夠精準(zhǔn)模仿人類駕駛員的操作,卻缺乏對(duì)場(chǎng)景的因果理解。它們知道“前面有車要?jiǎng)x車”,卻不知道“為什么要?jiǎng)x車”。
這種知其然不知其所以然的缺陷,導(dǎo)致車輛在面對(duì)從未見過的高風(fēng)險(xiǎn)復(fù)雜路況時(shí),往往表現(xiàn)脆弱,決策邏輯甚至自相矛盾。
為了讓AI真正學(xué)會(huì)像人類老司機(jī)一樣思考,英偉達(dá)并沒有選擇在現(xiàn)有模型上修修補(bǔ)補(bǔ),而是從最底層的數(shù)據(jù)構(gòu)建開始了一場(chǎng)革命。
![]()
▲因果鏈推理演示
為了解決傳統(tǒng)數(shù)據(jù)集中描述模糊、缺乏邏輯關(guān)聯(lián)的問題,研究團(tuán)隊(duì)構(gòu)建了一套全新的“因果鏈”(Chain of Causation, CoC)數(shù)據(jù)集。
這套數(shù)據(jù)集的核心在于教會(huì)模型建立“觀察-原因-決策”的嚴(yán)密邏輯閉環(huán)。它不再讓AI生成諸如“天氣晴朗、路面寬闊”這類無關(guān)痛癢的旁白。
在這套模型下,提示詞可明確指出“因?yàn)樽髠?cè)有車輛正在強(qiáng)行并線,且前方有行人橫穿,所以我決定減速避讓”。
這種數(shù)據(jù)構(gòu)建方式不僅消除了因果混淆,更有效提升了模型的邏輯性。
二、引入新架構(gòu) 平衡模型性能
在強(qiáng)大的數(shù)據(jù)支撐下,Alpamayo-R1采用了一種模塊化且高效的架構(gòu)設(shè)計(jì),巧妙地平衡了“慢思考”與“快行動(dòng)”。
其大腦由英偉達(dá)專為物理AI打造的Cosmos-Reason視覺語(yǔ)言模型驅(qū)動(dòng),負(fù)責(zé)處理復(fù)雜的環(huán)境理解和邏輯推理。
而行動(dòng)則交由一個(gè)基于流匹配(Flow Matching)技術(shù)的動(dòng)作專家解碼器來控制。
這種分工合作的機(jī)制,讓模型既能利用大語(yǔ)言模型的廣博知識(shí)進(jìn)行深思熟慮,又能通過擴(kuò)散模型生成絲般順滑且符合車輛動(dòng)力學(xué)的行駛軌跡,完美解決了大模型通常反應(yīng)遲鈍的弊病。
不過,真正讓Alpamayo-R1與眾不同的,是其在訓(xùn)練階段引入的強(qiáng)化學(xué)習(xí)(RL)機(jī)制。
![]()
▲推理-動(dòng)作高一致性將提升獎(jiǎng)勵(lì)
在監(jiān)督學(xué)習(xí)教會(huì)模型基本的駕駛技能后,研究人員引入了一個(gè)更為嚴(yán)苛的“判卷老師”——利用更大規(guī)模的推理模型作為批評(píng)者(Critic),對(duì)AR1的表現(xiàn)進(jìn)行打分。
這個(gè)階段的訓(xùn)練目標(biāo)非常明確——要求模型言行一致。
對(duì)此,該模型中的獎(jiǎng)勵(lì)函數(shù)不僅看重車輛是否開得安全,更看重模型嘴上說的推理邏輯與實(shí)際做出的駕駛動(dòng)作是否吻合。
如果模型推理說“因?yàn)榧t燈要停車”,但實(shí)際動(dòng)作卻在加速,它就會(huì)受到嚴(yán)厲懲罰。
![]()
▲采用強(qiáng)化學(xué)習(xí)新模式后質(zhì)量顯著提升
這種訓(xùn)練方式讓AI的解釋不再是一種事后的敷衍,而是真正成為了指導(dǎo)車輛行動(dòng)的決策綱領(lǐng),推理質(zhì)量因此提升了45%,推理與行動(dòng)的一致性也提高了37%。
在論文的最后還有一個(gè)小彩蛋,致謝中排在第一位的正是英偉達(dá)自動(dòng)駕駛負(fù)責(zé)人吳新宙。
![]()
▲吳新宙在致謝第一位
結(jié)語(yǔ):英偉達(dá)首次開源VLA模型
隨著 Alpamayo-R1 的發(fā)布及后續(xù)開源計(jì)劃的推進(jìn),英偉達(dá)不僅展示了一條通往 L4 級(jí)自動(dòng)駕駛的務(wù)實(shí)技術(shù)路徑,更為整個(gè)開源社區(qū)注入了強(qiáng)勁動(dòng)力。
當(dāng)自動(dòng)駕駛汽車開始能夠清晰地解釋自己的每一個(gè)決策邏輯時(shí),我們距離那個(gè)真正安全、可信的自動(dòng)駕駛未來,或許只剩下最后的一公里。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.