![]()
從去年到今年,國內幾家新勢力和供應商(華為、元戎、Momenta等)紛紛喊著要上“端到端”智駕,并將其作為2024下半年的工作重點。“端到端”是不是特斯拉首倡存在爭議,但毫無疑問,特斯拉是第一個將其工程化和商業化的企業。
如果以“全量推送”為考核點,2024年3月,特斯拉在北美推送FSD V12正式版。但在中國落地,仍在走流程。這給了國內很多企業說自己不亞于、甚至在中國強于特斯拉智駕模型的機會。
7月30日,小鵬向全球推送AI天璣系統XOS 5.2.0版本;
9月11日,華為鴻蒙智行推送ADS3.0。有意思的是,無論哪個界,都在大談“端到端”的時候淡化了“華為”;
10月23日,理想推送了“端到端+VLM”,聲稱行業首創。理想的確是第一個將二者實際結合的品牌;
蔚來稍微落后一點,高調發聲的“世界模型”尚未落地——7月份推出了包含個別功能的Demo版。
一個人腦決策的模擬
既然“端到端”這么時髦,到底什么是“端到端”( End-to-End, E2E)?抱歉,沒有公認的準確定義,就像端到端的機理一樣,基本上屬于自拉自唱的節目。
低情商解釋——“端到端”是實現智駕的一條技術路線。智駕從CNN、RNN、GAN、到Transformer大模型(典型應用是城區輕圖NOA),直到如今的端到端。“端到端”即將經典感知、規劃、決策、執行多模塊智駕,合成一體,由感知直接“生成”決策和執行。
看到“生成”倆字,就很容易理解,這和ChatGPT是一個路子,即建立一個茫茫多參數(可能多達100B以上,1B=10億)模型,通過強大算力,不斷用數據訓練這個模型,期待它產生明智的決策,無論下一個新場景,它有沒有碰到過。這樣一來,端到端其實就是用大模型的方式,來解決智駕的長尾(罕見場景)問題。
高情商解釋——不了解上文那一大堆縮寫?沒事!比如你牛馬附體,駕車下班路上還不斷打電話處理公務,不知不覺就開回家了,回頭都想不起怎么回的家。這一路的駕駛行為,就是端到端。
說白了,就是試圖用大模型模擬人腦的決策方式,明智地處理無窮無盡的新場景。
有些人覺得這一通解釋,說了跟沒說一樣。其實這么想有道理,這很像“將大象推入冰箱”的任務,開門關門都非常清楚(因為符合人的生活經驗),但對于將大象推進去的關鍵步驟,卻語焉不詳。
不怪搞技術的,因為的確說不清楚。他們的解釋是“可解釋性差”,氣人不?
但是不著急,之于用戶,對于端到端的推崇以及呼聲,從一個窄眾群體(發燒友以及智能愛好者們)到當下全民,越來越有成為全民興奮點的趨勢。端到端的全量推送,對國產品牌高度關注的用戶們,討論度一點都不比投資者們少,他們在期待某種意義的反擊(雖然他們獲取或者了解的信息量參差不齊)。
目前人類的技術,感知沒問題,決策到執行段也沒問題。如何從感知到決策,有大問題。人腦是怎么思考的,大家其實不知道。但原則是“經驗決定預測”,這是當前人類駕駛比AI強的地方。一個數理邏輯不好的人,甚至沒太多文化的人,也能開好車,就是這個道理。端到端省去了規控這一塊,直接決策,反饋加快了,企業希望決策準確度不降反升。
保守派和原教旨派
有人提出,端到端的本質應當是感知信息的無損傳遞,雖有道理但難懂。其實端到端的精髓,莫過于考慮如何不用規則來思考。這并非指拋棄交通規則,而是無需程序員事先對每一個可能場景編好應對方案,AI自己就會基于眼前場景找到最優答案。 因此,可以將端到端近似描述為“基于經驗和基礎規則的預測模型”。
![]()
(經典規控模型)
端到端之前的智駕方案,都是多個模塊的組合。感知、規劃、控制都是獨立的。信息在串聯模塊當中傳遞有延遲和數據缺失,而且誤差的逐級積累,也可能帶來安全隱患。
理論上,端到端應該將三者合一,消除內部數據接口。但是,小鵬、極越等“保守派”仍實行兩段式“端到端”,即將感知和規控分為兩個模型。小鵬前者叫Xnet(感知神經網絡),后者叫規劃神經網絡(XPlanner)和視覺語言模型(VLM)XBrain。
而原教旨派則認為“兩段式”沒有脫離傳統智駕的窠臼,即兩個網絡中間,仍然是人工定義的接口。傳統智駕的信息漂移、延遲的毛病都繼承下來了(盡管有改善)。
兩段式的好處在于,既然人類定義了中間接口,人類就能看懂中間結果,便于檢查系統、找出毛病。比如感知出了問題,不用將整個系統用“好數據”重新訓練。也容易兜住系統下限,避免出現令人匪夷所思的錯誤。
但是,10月23日理想公布的“4D One Model”和特斯拉一樣,是一段式,即端到端+VLM。
VLM看來必不可少,其實也是個大模型。它可以從圖像(交通場景)和文本(交通標識)中學習的多模態模型。簡單說,輸入了圖像和文本,輸出(生成)文本。這個文本用于規控模型來理解場景意義。
VLM和端到端模型本身的區別在于,它不用訓練就具有泛化能力(當然能訓練更好)。其最重要的工作在于,獲取圖像中的空間屬性,即識別障礙和運動路徑。
無論VLM,還是端到端大模型,都是黑盒子。人們不知道它怎么生成了認知和決策,就像不知道如何將大象推入冰箱一樣,但看結果是推進去了。
這就是所謂的“可解釋性低”。即決策邏輯可以理解,但過程不可理解。一旦決策結果出了問題,沒別的辦法,只能不斷加大數據填喂量,調整模型參數,盡可能堆高模型準確率,但不保證100%安全。
必須承認,端到端同時擴張了智駕系統的上下限,這就是為什么有的企業跟風做端到端,訓練了好久,發現系統表現反而更差了。這就麻纏了,因此需要“劃紅線”,比如絕對不能闖紅燈等規則,明確到神經網絡中去。這就是兜底原則。
大模型需要“奶媽”
建造和訓練大模型,首先要很多錢。因為到了B級參數量級,連存儲數據都很貴,匡論算力。
目前特斯拉超算中心的算力支持由D1芯片和超算Dojo組成。投資10億美元,總算力100EFLOPs(1EFLOPs為每秒1018次浮點運算),這一部署尚未完成。
而智能云端算力的門檻大致為1EFLOPs,車企目前平均后臺算力為3 EFLOPs。華為后臺算力可能為7.5 EFLOPs。三大電信運營商的算力部署規劃從15到21 EFLOPs不等。
![]()
(端到端流程示意)
理想訓練算力(不等同于總算力)為5.39 EFLOPs,由5000塊計算卡組成(英偉達A100和A800)而一塊用于訓練生成式大模型的A100,報價10萬元人民幣,A800則至少在12萬元以上。
顯然,超算中心搭建必須有大資金支持,就算每月電費也可能高達數百萬元。在汽車圈,今后幾年內特斯拉用于訓練的算力規模,顯然是最大的。
有了硬件,還得有數據。數據量決定了訓練質量。
7月份馬斯克在財報會議上打的比方廣為人知,他說FSD V12“訓練了100萬個視頻案例,勉強工作;200 萬個,稍好一些;300 萬個,你就會感到,Wow;1000 萬個,它將變得難以置信。”當然,老馬作為傳播教父,具體數據不用糾結,知道數據量與系統決策正確性正相關即可。
需要明確的是,“壞數據”(青澀的駕駛、糟糕的駕駛習慣、違反交通規則等)會“向下拖曳”大模型的訓練效果。簡單說,最好是理智守法克制的老司機。
特斯拉的影子駕駛,能扒到大量數據。訓練的本質是模仿。仿著仿著就出徒了。那么問題來了,填喂數據的質量誰來保證?還是得人工審核。即便不是純人工,也要做某種人工規則下篩選。就像無圖(其實是輕圖)同樣要做人工標注一樣。
堆人力資源也是昂貴的投資,且注定改善訓練不會太快。高質量數據則意味著罕見場景+好數據。如果產品的保有量上不去,也意味著扒不到太多好數據,訓練改善就慢,系統迭代就會落后于對手。
思路、投資和技術路徑相似的前提下,產品保有量成了智駕水平最重要的致勝(參數丨圖片)因素。那么,誰的算力投資大、路徑清晰、產品的絕對保有量更大呢?結論呼之欲出。
![]()
(特斯拉FSD狀態)
如是,端到端的“奶媽”是投資、數據、人力和耐心!
端到端的思路誕生于大模型和算力的突破,只是一條看似很有希望的路線。現在的問題是,訓練到一定量級,系統改善可能遭遇瓶頸(訓練量逐漸與效果脫鉤)。現在走在前面的企業,可能都碰到了“數據墻”,但他們都諱莫如深。如今有人認為,既然力大磚飛,端到端模型參數到達100B(和ChatGPT4.0差不多量級),訓練量到億級,智駕水平會不會發生質的飛躍?
這個暫時還沒人試過。在產生足夠的經濟回報之前,搭建這樣的系統,懷疑荷包先撐不住。馬斯克的“第一性”是好東西,但不等于馬老師本人就是第一性。
從Transformer+BEV,到端到端,一直是國內第一梯隊跟緊特斯拉思路,落后半年到1年,而第二梯隊則落后特斯拉兩年左右,即剛開始搭建系統。迄今為止,說特斯拉是智駕領路人,并不為過。而Waymo的Robotaxi,則沒有產生這么大的影響力。現在特斯拉也開始鼓吹Robotaxi,國內車企是否繼續跟進,也是看點。總體而言,大家都在圍繞銷量做文章。至于影響和塑造人類交通和生活方式這種宏大敘事,那得活下來的企業才有資格想這個問題。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.