![]()
作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com
12月20日,舊金山斷電了。
一場變電站火災讓這座城市近三分之一的區域陷入黑暗,13萬居民失去電力,數百個路口的紅綠燈同時熄滅。
然后,Waymo也“出事”了。
流傳在社交媒體上的視頻顯示,這些白色的捷豹I-PACE停在路口中央,打著雙閃,一動不動。不是一輛兩輛,而是成片地趴窩。舊金山警察不得不出動,像疏導真人司機一樣,用手勢指揮這些無人車輛挪開。市長Daniel Lurie親自給Waymo CEO打電話,要求立即把車撤走。
Waymo官方后來解釋,系統設計上,遇到紅綠燈失靈會按四向停車規則處理,但當天停電規模太大,車輛集中向遠程運營團隊發送“確認請求”,系統過載了。
翻譯成人話就是,這些車不知道該怎么辦,只好停下來問人。但問的車太多,后臺接不過來,于是大家一起卡死。
同一天,馬斯克在X上發了一條推文:Tesla Robotaxis were unaffected by the SF power outage(特斯拉的Robotaxi沒有受到舊金山停電的影響)。
![]()
一邊是集體癱瘓,一邊是照常運行。
這暴露的是兩條技術路線在極端場景下的差異。Waymo的系統需要后臺兜底,當后臺過載,車就陷入等待;特斯拉的端到端模型在車上獨立運行,不依賴遠程協助。
Waymo代表的是重感知、重冗余的路線。激光雷達主導,高精地圖打底,遇到極端情況就呼叫遠程人工協助。這套系統在限定區域內表現出色,它對基礎設施和后臺支持的依賴太重了。而這種系統架構層面的脆弱性,不是靠增加幾個接線員能解決的。
特斯拉走的是另一條路,端到端神經網絡。不依賴規則,讓AI從幾十億英里的真實駕駛視頻中“學會”開車。它不是在執行指令,而是在“理解”道路。遇到紅綠燈壞了,它會像人類老司機一樣觀察路口、判斷車流,自己決定什么時候走。
NVIDIA機器人部門負責人Jim Fan最近試駕了特斯拉FSD v14后評價:“我分不清是神經網絡還是人類在開車。”他管這叫“通過了物理圖靈測試”。
這場舊金山停電,本質上是一場技術路線的公開考試。
考題很簡單。當規則失效、地圖過時、通訊中斷,你的車還能不能自己開?
越來越多的證據指向同一個方向,端到端大模型,正在成為通往L4級自動駕駛最可行的技術路徑。
而在中國,有一家車企正在走同樣的路,而且已經用實車證明了這套邏輯。
1
“涌現”時刻
12月初,一段視頻在汽車圈里小范圍傳播。
畫面里是一輛小鵬測試車在夜間行駛,前方突然出現交警查酒駕的臨時檢查點。沒有提前預警,沒有地圖標注,車輛的智駕系統識別出了交警的手勢,平穩減速,停在了指定位置。
發布這段視頻的是小鵬汽車智駕產品負責人袁婷婷。她給這條微博配的文字是“VLA2.0涌現場景”。
![]()
這個場景看起來簡單,但它恰恰是“工程化 + 地理圍欄”路線最頭疼的問題。交警的手勢是臨時的,位置是隨機的,姿態是多變的。你沒辦法提前寫好規則告訴車看到這個手勢就停,因為手勢本身就有無數種變體。
只有學會了理解世界的模型,才能處理這種情況。
這里的“涌現”就像大語言模型在參數量突破某個臨界點后突然展現出推理能力一樣,VLA模型在足夠多的數據訓練后,也開始具備類似人類的判斷力。它不是在執行預設指令,而是真的看懂了交警想讓它做什么。
當然,這并不是一個量產能力,只是日常軟件測試中的偶發瞬間。但從這種偶然性中,能夠窺見模型的類人智能,如果模型能夠自主應對這一種臨時場景,那它大概率還能處理更多的意外情況。當處理能力足夠強,L2和L4之間的界限就開始模糊了。
何小鵬在今年多次公開表態中反復提到一個觀點:小鵬要用一套軟件,實現L2直通L4。不搞兩套系統,不在輔助駕駛和自動駕駛之間劃一道鴻溝。同一個模型,裝在普通私家車上是L2,裝在Robotaxi上就是L4。差別在于算力配置和安全冗余,不在于底層技術路線。
這個思路和特斯拉一致。而要支撐這套邏輯,小鵬需要證明自己真的有能力把大模型從云端落到車端。
1
一整年的技術鋪墊
小鵬的底氣不是憑空來的。回看2025年,這家公司每隔一段時間就會拋出一個重磅技術進展,像是在系統性地講述一個完整的故事。
4月,香港。 小鵬舉辦AI技術分享會,首次披露正在研發720億參數的“物理世界基座模型”。這個參數量是當時主流VLA模型的35倍左右。同時曝光的還有建成國內汽車行業首個萬卡智算集群,算力達到10 EFLOPS,集群利用率常年保持在90%以上。
更重要的是,小鵬團隊宣布他們在10億、30億、70億、720億參數的模型上都觀察到了明顯的Scaling Law效應。自動駕駛模型的性能隨著參數的增加而明顯提升。小鵬官宣這是行業內首次明確驗證規模法則在自動駕駛領域持續生效。
![]()
6月,美國納什維爾。 計算機視覺頂會CVPR舉辦自動駕駛研討會(WAD),小鵬是唯一受邀演講的中國車企,與Waymo、英偉達、UCLA同臺。時任小鵬世界基座模型負責人、現任小鵬汽車自動駕駛負責人劉先明分享了一個關鍵數據。云端基模訓練過程中處理了超過40萬小時的視頻數據,GPU流式多處理器利用率(SM utilization)達到85%。
他還透露了一個技術方向。VLA模型的計算量主要來自視覺輸入端,小鵬團隊正在探索如何在不損失關鍵信息的前提下,大幅壓縮視覺Token的處理量。
這個方向后來有了新的進展。
11月,廣州。 小鵬科技日,小鵬第二代VLA正式發布。
和傳統VLA架構的視覺-語言-動作(Vision-Language-Action)不同,小鵬的第二代VLA去掉了中間的Language層,實現了從視覺信號到動作指令的端到端直接輸出。用小鵬的話說,就是“拆掉了翻譯官,讓眼睛直接指揮手腳”。
這套模型有多大?數十億參數。跑在哪里?由三顆自研圖靈AI芯片構成、總算力達2250TOPS的車端平臺上。訓練數據量接近1億clips,按官方換算相當于人類司機約6.5萬年的等效駕駛經驗。在如此龐大的數據吞吐下,其全鏈路模型的迭代周期僅為 5 天。
何小鵬實測VLA2.0:大路絲滑、小路順暢、園區自如
從云端720億參數基座模型,到強化學習訓練,到知識蒸餾,到車端部署,再到用戶反饋數據回流云端繼續訓練。這套閉環,小鵬稱之為“云端模型工廠”。
到這里,一條完整的技術鏈路已經清晰了。云端怎么訓、車端怎么跑、數據怎么閉環,小鵬都跑通了。
但還有一個關鍵問題沒解決。
1
最后一塊拼圖
云端怎么訓已經講清楚了,但還有一個問題:怎么讓大模型在車端跑起來?
這是個通用難題。模型越大能力越強,可車端算力是有限的。云端可以堆幾千張GPU,車上只有幾顆芯片。云端720億參數的基座模型可以不計成本地跑在GPU集群上,但車上不可能塞一臺服務器。即便經過蒸餾,車端模型也有數十億參數,而目前行業內大多數車端模型只有千萬級別。參數量差了兩個數量級,對算力的要求完全不同。
無論是L2的量產車還是未來的L4 Robotaxi,都繞不開這個問題。
小鵬和北京大學聯合完成的一篇論文,提供了一種解法。這篇論文剛剛被AAAI 2026錄用,名字叫《FastDriveVLA》。
![]()
它要解決的問題很明確。VLA模型在處理視頻輸入時會產生大量的視覺Token,這些Token是計算量的主要來源。據稱,以一個配備7個攝像頭的VLA模型為例,每輸入約2秒的視頻內容,就會產生超過5000個Token。Token越多,計算越慢,延遲越高。
論文提出了一個專為端到端自動駕駛VLA模型設計的視覺Token剪枝框架。核心思路是區分“前景”和“背景”。對于自動駕駛來說,道路、車輛、行人、交通標志、交通障礙物是前景,天空、遠處的建筑是背景。前景的Token要保留,背景的Token可以不要。
![]()
FastDriveVLA框架
為了訓練這個剪枝器,研究團隊先構建了一個大規模數據集nuScenes-FG,包含來自6個攝像頭視角的24.1萬個帶有前景標注的圖像。在訓練方法上,團隊采用了MAE風格的像素重建策略,并引入了一種對抗性前景-背景重建機制,讓剪枝器在學習重建前景的同時,也必須區分背景,從而增強對前景Token的識別能力。
最終訓練出的剪枝器叫ReconPruner,參數量只有7000萬,可以即插即用地嵌入現有的VLA模型。它能給每個視覺Token打一個“重要性分數”,然后只保留分數最高的那些。
效果很直接。論文實驗中,單次輸入產生的3249個視覺Token被降至812個,減少75%。推理效率的提升同樣顯著。FLOPs降低7.5倍,預填充時間縮短3.7倍,解碼時間縮短1.3倍。對于車端實時運行來說,這意味著更低的延遲和更快的響應。
而且,當視覺Token減少之后,模型的性能不但沒下降,反而有所提升。實驗結果顯示,在nuScenes開環規劃基準測試中,FastDriveVLA在25%、50%、75%的剪枝比例下均優于現有方法,取得了SOTA性能。尤其當剪枝25%時,L2軌跡誤差和碰撞指標甚至略優于未剪枝的原始模型。論文的解釋是,砍掉冗余的背景Token反而讓模型更專注于真正重要的前景信息,而這正是提升自動駕駛性能的關鍵。
把這套技術翻譯成工程意義就是,通過在視覺輸入端做優化,讓參數量巨大的VLA模型也能在車端跑起來。這對L2量產車和L4 Robotaxi都有價值。對于L2車型,它讓更強的模型能跑在現有算力上;對于未來的Robotaxi,它讓成本結構有了優化空間。
1
L4的商業想象力
今年11月的小鵬科技日上,何小鵬宣布了一個激進的計劃。
2026年,小鵬將推出三款Robotaxi車型,起售價低于20萬元人民幣。2027年,在部分城市開啟Robotaxi試運營。
這個定價是什么概念?分析師普遍認為,Waymo單車成本至少是十幾萬美元,折合人民幣超過100萬。即使考慮到Waymo用的是改裝車而小鵬是原生設計,這個價差也足夠驚人。這種高額的單車成本使得 Waymo 必須在 2-3 年內跑出極高的里程才能回收車輛初期投資,這對運營效率提出了巨大挑戰。
小鵬的成本優勢來自幾個方面。第一,純視覺方案,不依賴激光雷達和高精地圖。第二,芯片 - 算子 - 模型的軟硬件聯合研發,視覺Token剪枝就是基于自研軟硬件特性而開展的技術創新。第三,一套軟件同時覆蓋L2和L4,研發成本攤薄。
更值得注意的是小鵬對Robotaxi商業模式的思考。
傳統Robotaxi是純2B的生意。運營商買車、養車、調度車,乘客只是付費乘坐。但小鵬提出了一個新玩法。除了Robotaxi之外,他們還會在2026年推出一個叫“Robo”的智駕版本,面向私人用戶銷售。這個版本和Robotaxi采用相同的硬件配置、安全冗余和智駕技術,但車歸你,想自己開也行,想讓車自己開也行。
![]()
1950年代想象未來自動駕駛的插畫
換句話說,2B和2C兩條路小鵬都要走。
Robotaxi跑運營,賺服務費。Robo賣給私人,賺硬件和軟件的錢。同一套技術底座,兩種商業模式。
在11月的小鵬科技日上,何小鵬還宣布了一項合作。高德將成為小鵬Robotaxi的首個全球生態合作伙伴,雙方未來將共同在全球范圍內提供Robotaxi服務。這意味著小鵬不打算自己從零做運營,而是開放SDK,讓合作伙伴一起來。
這套打法的邏輯很清晰。L4不是終點,而是一個新的起點。當自動駕駛能力足夠強,車就不再只是代步工具,而是一個可以創造收入的資產。你可以自己用,也可以讓它出去跑Robotaxi幫你賺錢。
傳統車企賣的是硬件,利潤空間越卷越薄。而L4能力帶來的是服務收入、數據價值,以及一個可以復用到機器人、飛行汽車等更多場景的技術底座。
這是完全不同的故事。
1
下一個要回答的問題
把時間線拉回來看,小鵬在2025年做的事情可以用一句話概括。他們跑通了從L2直達L4的完整技術路徑,并且把成本打到了可以量產的水平。
4月披露云端720億參數基座模型,驗證Scaling Law。6月在CVPR展示云端訓練和車端部署的工程能力。11月發布第二代VLA,去掉語言層,實現端到端直出。12月,與北大合作的論文被AAAI錄用,解決了車端模型高效部署的最后一環。
每一步都在回答同一個問題。大模型路線怎么落地?
現在,下一個要回答的問題變成了:量產之后,體驗到底怎么樣?
小鵬給出的時間表是,2026年第一季度,第二代VLA將在Ultra車型上啟動量產,率先在L2車型落地。
L2到L4的技術路徑有沒有真的跑通,答案很快就會揭曉。
![]()
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.