導(dǎo)言
“端到端大模型”在行業(yè)里被提到太多次,它其實干的活很樸素,就是把過去分散在不同環(huán)節(jié)的邏輯收緊,讓系統(tǒng)在同一套規(guī)則下處理更多情況。外界喜歡把它描述成能力飛躍,而工程師更關(guān)心的是它穩(wěn)不穩(wěn)、好不好調(diào)、會在哪些地方偏離預(yù)期。理解它,不能從想象它能變多強開始,而要從它要解決的問題看起。
![]()
要看懂端到端大模型,需要先接受一個現(xiàn)實:道路世界是真實世界,光影、動作、節(jié)奏每天都在變化。不管模型多大,都要在這些變化里保持穩(wěn)定。把大模型放回這條現(xiàn)實主線上,再看它能做什么、做不到什么,就會清楚很多。
模型越大,路不一定就簡單
如果只看演示視頻,端到端大模型顯得比老司機還穩(wěn)。方向的調(diào)整干脆利落,跟車距離控制平滑,似乎模型越大越能“看懂整條路”。可真實道路并不提供那樣干凈的輸入。清晨的水汽會在鏡頭邊緣凝成薄霧,傍晚的逆光把前車輪廓拉得模模糊糊,路面反光會在某一幀里突然閃一下,電動車和外賣車則經(jīng)常在模型最不想看到的位置竄進畫面。
![]()
道路和障礙物檢測系統(tǒng)
這些被光影切碎的信息會讓模型瞬間迷茫。人類司機會把部分細節(jié)自動過濾,例如樹影的晃動、擋風(fēng)玻璃反射出的偽輪廓,可模型沒有這種本能,它必須用大量樣本告訴自己哪些信號應(yīng)該忽略,哪些動作值得提前準備。模型越大,這種學(xué)習(xí)越復(fù)雜,它在某些瞬間甚至?xí)憩F(xiàn)出注意力“跑偏”的情況。
工程師常在回放日志里看到一些意想不到的片段。前車在畫面里清晰可見,它卻把注意力放到旁邊的反光塊上;路邊行人動作穩(wěn)穩(wěn)當當,它卻突然表現(xiàn)出謹慎。模型看到的世界不是“路”,而是一堆碎片化的像素組合,它要把這些碎片重新拼出意義,而現(xiàn)實場景的復(fù)雜度遠超想象。端到端大模型并沒有讓世界變得更簡單,它只是讓系統(tǒng)有能力把這些碎片理解為一個整體,但碎片本身的混亂從未消失。
![]()
端到端學(xué)習(xí)架構(gòu)
在人類駕駛里,我們會憑經(jīng)驗把“下一秒可能發(fā)生什么”放在腦子里,提前松油或輕輕壓一點剎車。模型也需要這種提前量,只是它依賴的不是直覺,而是數(shù)據(jù)里的“相似場景”。場景越復(fù)雜,模型就越需要大量的樣本去描述真實世界,稍有偏差,行為就會被拖得忽快忽慢。
把所有事情塞進一個模型,并不輕松
端到端大模型最吸引人的地方,是它把感知、預(yù)測、決策放在一個模型里處理,讓鏈路看起來更短。廠商喜歡用“一體化”形容這種結(jié)構(gòu),仿佛模型自然就能把所有事情串成順滑的邏輯。但在工程現(xiàn)場,情況遠不如此。
![]()
基于概率世界建模的視覺自動駕駛表征學(xué)習(xí)
大模型像一個萬能鍋,看上去可以處理所有食材,可真正下鍋時才會發(fā)現(xiàn)配比、時機和火候都會互相影響。工程師原本想提升模型在低速場景的敏感度,結(jié)果模型在高速場景里變得過度謹慎;他們讓模型在高速上果斷一些,又會影響它在城市擁堵里對密集行為的判斷力。
這類連鎖反應(yīng)是端到端大模型最難調(diào)的地方。過去的模塊化系統(tǒng),每個模塊偏了都能單獨修;現(xiàn)在所有邏輯擠在一個模型里,任何一個輸出改變,都可能牽動一整串內(nèi)部關(guān)聯(lián)。工程師要盯著同一幀視頻反復(fù)放慢,只為看清模型注意力落在哪個區(qū)域。有時會發(fā)現(xiàn)模型對某些細節(jié)格外在意,有時卻忽略了顯而易見的線索。
![]()
基于深度學(xué)習(xí)的實時錯誤方向檢測
這些變化看上去像隨機波動,實際上是模型在內(nèi)部不斷重新分配注意力的結(jié)果。端到端大模型不是按步驟出錯,而是把小偏差、多余注意力和難以量化的背景條件堆在一起,最后在某個不顯眼的路口表現(xiàn)出來。把所有事情放進一個模型,從紙面看很整潔,調(diào)起來卻比模塊化更“費神”,像一鍋永遠需要重新調(diào)味的湯,每次調(diào)整都要確認不會讓另一頭失衡。
聰明之外,更需要可控
外界往往關(guān)注模型能不能處理極端場景,能不能像老司機一樣提前預(yù)判。工程師更關(guān)心的是,它能不能把一件事情交代清楚。道路里最怕的從來不是系統(tǒng)不夠靈活,而是它突然做了一個沒人預(yù)料的動作。輕輕提前松油、突然縮短跟車距離、在光線變化時慢半拍,這些小動作都會破壞整體節(jié)奏,而模型不會告訴你當時“在想什么”。
![]()
全球超級計算中心采用 NVQLink
端到端大模型內(nèi)部沒有清晰邊界。它不會寫小紙條告訴你“我剛才把那塊反光當成了車”,工程師只能通過權(quán)重變化、輸入分布和注意力熱圖去推測它當時關(guān)注了哪些像素。推錯方向,調(diào)整可能會適得其反,讓原本穩(wěn)定的部分變得不穩(wěn)。
法規(guī)要求每一個自動化動作都必須可追溯。《智能網(wǎng)聯(lián)汽車道路測試與示范應(yīng)用管理規(guī)范(試行)》強調(diào)決策過程必須能被還原。端到端大模型把許多中間環(huán)節(jié)揉成了一個整體,動作看上去更流暢,卻讓單一步判斷背后的依據(jù)變得難以拆解。工程團隊因此會在模型之外設(shè)置更“笨”的安全層,不是懷疑模型,而是不敢讓它在關(guān)鍵時刻獨自承擔(dān)判斷。那些看似老派的規(guī)則,往往是現(xiàn)實道路里最可靠的兜底。
模型終究有邊界
大模型常被描述成自動駕駛的“最終路徑”,但工程師知道,它更像一個能不斷改進的工具。道路永遠比模型快一步變化,駕駛行為的組合也永遠比樣本庫多。暴雨積水、冰面路段、施工繞行、突發(fā)管制,這些場景不可能全部靠模型自己推斷。
![]()
天氣數(shù)據(jù)影響交通
真正落地的系統(tǒng)往往是折中的結(jié)果,讓大模型負責(zé)順滑體驗,讓規(guī)則邏輯負責(zé)兜底,讓工程限制守住邊界。在這些底線場景里,工程師寧愿多放幾條看上去“古老”的限制,也不會把命運交給模型的靈活性。不是因為模型不夠好,而是因為道路世界里總有一些無論如何都必須按最笨的方法處理的情況。
算力同樣是一條清晰的邊界。車載芯片的能力有限,大模型越大,需要的資源越多。工程師常常要在“更細致的理解”和“更及時的響應(yīng)”之間做取舍。有些復(fù)雜判斷來不及在幾毫秒內(nèi)算完,只能交給更硬的規(guī)則邏輯兜著。大模型能做的事情并不少,但它并不能包辦全部。
![]()
英偉達的通用軌跡評分
結(jié)語
端到端大模型不是全能大腦,而是一種把鏈路集中化的工程方式。可控、可驗證、可解釋,這些底線永遠比“聰明”更重要。請對消費者說人話,大模型不是萬能,它只是讓道路上的某些動作更順、更穩(wěn),讓麻煩的問題少一點。
歡迎線上購買《汽車之友》雜志
北京時尚
成都雜志鋪
掃碼進店,線上購買,快遞到家
獲取更多圖文資訊,歡迎關(guān)注《汽車之友》微信公眾號
獲取更多視頻資訊,敬請關(guān)注《汽車之友》視頻號
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.