![]()
12月10日,理想汽車自動駕駛研發高級副總裁郎咸朋在微博發布長文,回應宇樹科技創始人王興興此前對VLA(視覺-語言-動作)模型的質疑:“VLA就是自動駕駛最好的模型方案”“空談架構不如看療效”。
![]()
這場技術爭議的源頭要追溯到今年8月,王興興在世界機器人大會上表示:“VLA是一個相對傻瓜式的架構。”王興興認為目前VLA模型對真實世界的交互,數據質量還不夠。“大家對于基礎數據的關注度太高了”他強調,應該把焦點放在具身機器人的模型架構上,因為現在的模型“不夠好,也不夠統一”。
對于為什么時隔四個月才為VLA“出頭”,郎咸朋在回應中解釋:“一是(當時)理想VLA司機大模型還沒正式發布,空口無憑;二是我們對具身機器人行業,還處于密切關注階段。”今年9月,理想VLA正式發布,12月6日OTA 8.1推送,兩個月多的“實踐”讓郎咸朋更加堅定了自己的選擇。
戲劇性的是,就在郎咸朋發聲次日,12月11日,小鵬汽車董事長、CEO何小鵬也針對VLA發布了微博長文:如果在2026年8月30日,小鵬的VLA在國內達到特斯拉FSDV 14.2在硅谷的整體效果,他將在硅谷籌建一個中國風味食堂;反之,小鵬自動駕駛負責人劉先明將“在金門大橋裸跑”。
![]()
短短兩日之內,來自造車新勢力頭部陣營的兩位高管先后強勢發聲,讓VLA這一備受爭議的技術路線被推上了風口浪尖。
在VLA的世界里,理想與小鵬“HE”了
理想與小鵬皆是VLA的堅定布局者:小鵬汽車在12月底將正式開啟第二代VLA的先鋒內測;而理想汽車OTA 8.1版本車機系統在12月6日已經開啟推送,圍繞輔助駕駛、智能座艙、智能電動三大核心技術進行升級。
理想對VLA的力挺,與其“汽車機器人”的長期戰略深度綁定。理想汽車董事長兼CEO李想曾表示,未來五到十年,具身機器人核心將有兩種形態:汽車類的具身機器人、人形類的具身機器人。在他看來,具備L4級自動駕駛能力的汽車,本質就是一臺汽車機器人。
理想汽車給自己的定位是具身智能企業,VLA模型在這一戰略中扮演著關鍵角色。李想認為,實現汽車機器人必須增加對物理世界的感知和理解能力。而VLA模型恰好具備對物理世界極強的理解能力,這種能力是其他技術架構難以匹敵的。
![]()
堅實的數據基礎為理想VLA模型的迭代提供了源源不斷的動力。郎咸朋表示,理想不僅可以從過去幾年積累的十幾億公里的存量數據里進行挖掘和篩選,更可以通過150萬車主的日常使用源源不斷地獲取新的數據。數據不是靜態的、有限地存在,而是動態的、持續增長的過程,構成了理想汽車自動駕駛能力的堅實數據基礎。
除了數據優勢,VLA模型在系統適配性上也展現出獨特價值。理想汽車不僅將VLA視為一個獨立模型,更將其作為整個具身智能系統的有機組成部分。郎咸朋強調,要做好自動駕駛,必須先把自動駕駛當作完整的具身智能系統對待,包括感知(眼睛)、模型(大腦)、操作系統(神經)、芯片(心臟)和本體(身體)等部分的協同作用。
對于VLA模型的未來,郎咸朋給出了明確的技術路線圖。根據他的預測,如果明年理想汽車能做到1000 MPI(每1000公里接管一次),VLA將迎來Chat GPT時刻。這意味著VLA模型將在實際道路上展現出接近人類水平的駕駛能力。郎咸朋還預測,隨著VLA模型的不斷進化,它甚至可能在某些場景下超越人類司機的表現。
![]()
小鵬汽車同樣對第二代VLA投入了巨大的資源與決心。在前不久的小鵬科技日,小鵬汽車正式推出第二代VLA,其核心突破在于取消了“語言轉譯”環節,實現從視覺信號到動作指令的端到端生成,重構了行業傳統的“V-L-A”架構。
小鵬汽車依托3萬卡云端算力集群(集群運行效率常年保持在90%以上)部署了720億參數基座模型,實現每五天全鏈路迭代一次。在模型訓練層面,第二代VLA無需人工標注,直接采用近1億clips真實駕駛視頻,覆蓋相當于人類司機65,000年駕駛經驗的極限場景,并可通過場景推演生成長尾場景進行對抗訓練。
為了實現第二代VLA量產上車,小鵬汽車通過“芯片-算子-模型”全鏈路優化,在2250 TOPS算力的Ultra版車型上,實現了數十億級參數模型的搭載,遠超行業千萬級參數量的普遍水平。
基于第二代VLA,小鵬汽車小路NGP功能即將發布,復雜小路平均接管里程(MPI)提升13倍,且在測試中自主涌現出交警手勢識別、紅綠燈提前應對等未訓練場景的適配能力;行業首發的“無導航自動輔助駕駛”Super LCC+人機共駕模式,無需依賴導航即可全球開啟,支持人機協同變道轉向。
何小鵬在近期的采訪中提出無人駕駛要能實現“大路、小路、高速、胡同、戶外”全場景的安全通行,解決并要能提前預判解決各種長尾問題,才能指向真正的無人駕駛未來。
VLA還是WA?或許殊途同歸
王興興之所以斷言“VLA是一個相對傻瓜式的架構”,原因在于其認為目前VLA模型對真實世界的交互,數據質量還不夠。“大家對于基礎數據的關注度太高了”,他強調應該把焦點放在具身機器人的模型架構上,因為現在的模型“不夠好,也不夠統一”。
這場“對線”最核心的分歧在于:王興興認為模型架構更重要,而郎咸朋則認為“模型的關鍵是要與整個具身智能系統適配,在此基礎上,數據是起決定意義的”。雙方觀點也反映出了當前智能駕駛的兩大技術路線——VLA路線與WA(世界模型)路線之間的分歧。
![]()
VLA路線的核心理念是“行動派”:通過端到端模型,直接從海量駕駛數據中學習從視覺感知到車輛控制動作的映射關系。它追求高效、擬人化的駕駛行為,優勢在于能利用大規模車隊迅速收集數據,實現體驗的快速迭代和優化。
WA路線的目標并非直接模仿駕駛動作,而是為機器構建一個能夠進行空間認知和時間推演的內部“虛擬世界模型”。讓汽車像人一樣“理解”物體、速度、距離的相互關系及行為后果,從而做出符合物理規律和常識的決策。
堅持VLA技術路線的,除了小鵬、理想,還有奇瑞、吉利等企業;而堅持WA路線的典型代表,是華為與蔚來。華為智能汽車解決方案BU CEO靳玉志曾表示:“華為不會走VLA路徑,這樣的路徑看似取巧,其實并不是走向真正自動駕駛的路徑。華為更看重WA,這個路徑目前看起來非常難,但能實現真正的自動駕駛。”蔚來創始人李斌將其自研的NWM(NIO World Model)視為技術架構的基石,他表示,蔚來的智能駕駛世界模型NWM在優先保障安全的前提下,一直在行業中都處于領先的位置。
當VLA與WA在架構與數據、感知與認知、模仿與理解之間展開深度博弈,我們看到的不僅是技術路線的分化,更是整個行業對“機器如何學會駕駛”這一根本命題的多維度探索。這場爭論沒有簡單的對錯,唯有真實世界的復雜性與安全性才是最終的裁判。
未來,或許不會有單一的“勝出”方案,而是在場景分化中走向融合——WA構建理解世界的“大腦”,VLA錘煉應對現實的“本能”,兩者協同構成智能駕駛完整的神經中樞。而無論選擇哪條路徑,海量高質量數據、強大算力與工程化落地能力,都將成為穿越技術深水區的共同基石。
當技術逐漸穿透噱頭,回歸駕駛的本質,誰能在安全、舒適與自由的尺度上,率先找到那把通往“汽車機器人”的鑰匙,誰才能真正啟動下一個移動時代。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.