![]()
「擁有理解、交互和改變世界能力的機器」正在悄悄到來。
文丨智駕網 零醬??
編輯丨雨來
那是小鵬智駕團隊在今年二季度的一次日常VLA測試,路邊突然有人揮手讓他們停車,這位揮手的路人并不是一位可以被系統辨識的交警,但車輛居然按照他的手勢停了下來。
還有一次,測試車輛在路上等紅燈,但當紅燈準備轉綠、在讀秒的時候,車輛竟然開始非常緩慢絲滑的蠕動,然后待綠燈完全亮起,提速通過。
招手停、提前蠕行這是小鵬團隊預期外的NGP功能,但系統自己開悟了。
那一刻,小鵬汽車自動駕駛負責人劉先明腦海里浮現了兩個字:涌現。
他想起了一句半開玩笑的話,人的成長靠頓悟,而人工智能的成長靠涌現。
經過累計超過20億元的投入,基于3萬張卡的算力和相當于一個普通人駕駛6.5萬年遇到的極限場景之和的近1億視頻Clips的深度學習,還有一年多時間的試錯、煎熬,小鵬的第二代VLA成了。
01.
小鵬智駕「涌現」新門
2024年對于小鵬的智駕路線是具有歷史意義的一年。
這一年何小鵬不僅下定決心放棄雷視融合方案,全面押注視覺路線,同時也決定同步研發兩代VLA,而第二代VLA的研發正是由劉先明負責。
但在相當長的一段時間內,第二代VLA的研發一直止步不前,劉先明表示其團隊成員一度失去信心,團隊高管甚至逃避參與報告會。
直到那個「涌現」時刻的突然出現,似乎有一道門向我們打開了。
「涌現」原來是一個生物學概念,整整150年前,英國哲學家喬治·亨利·劉易斯在其著作《生命與心靈的問題》一書中闡述「鳥群自組織飛行」等群體行為時,提出「即使完全了解單個個體的所有行為,也無法預測群體層面涌現出的復雜模式。」
這是「涌現」概念首次被科學界接受。
20世紀(參數丨圖片)初,昆蟲學家威廉·莫頓·惠勒發現雖然單個螞蟻的智力有限,但整個蟻群在沒有中央指揮的情況下卻可以完成筑巢、覓食等復雜任務。
惠勒將蟻群描述為「超個體(superorganism)」,其作為一個獨立行動者展現出「涌現進化」的特性——整體大于部分之和。
1982年,約翰·霍普菲爾德(John Hopfield) 在論文《具有涌現集體計算能力的神經網絡與物理系統》中,明確將螞蟻覓食路徑優化作為涌現計算能力的經典范例。
今天,人類已在蟻群、大腦神經網絡、免疫系統、AI等領域清晰地觀察到了涌現現象。ChatGPT4這一生成式AI模型正是其訓練數據和參數規模達到一定程度時,突然涌現出讓人驚嘆的理解能力。
螞蟻系統的涌現特性經歷了從哲學思辨到科學實證再到技術應用的完整發展歷程。
對于智駕系統而言,路上的行人、車輛等數據就如同一只只螞蟻,這些數據最終能催生一個螞蟻系統嗎?
11月5日,在小鵬汽車科技日上,何小鵬對外明確表示,基于第二代VLA的小鵬智駕系統已經出現了涌現現象。
![]()
這些場景并未在訓練數據中專門標注,而是模型自我演進的結果。
何小鵬強調,涌現現象是持續發生的。
可以說,智駕正來到一個智能涌現的臨界點。
02.
去掉L的第二代VLA大模型
在智駕領域,關于VLA是不是一條必經之路,業內尚存在爭論的時候,小鵬汽車的第二代VLA會不會是新的名詞營銷呢?
VLA即Vision-Language-Action(視覺-語言-動作)是一種融合視覺、語言與動作三大模態的端到端大模型。
其核心突破在于打通「感知-決策-控制」全流程,通過多模態大模型直接輸出控制信號,減少傳統模塊化架構的信息損耗。
這一模型早期主要應用于機器人領域。
小鵬汽車、理想則成為將VLA最早引入智駕的兩大整車廠。
![]()
小鵬汽車推出的第二代VLA,最大的變化即是去掉了「語言轉譯」環節。
這一變化的通俗理解即是,通過從視覺信號到動作指令的端到端直接生成,不再需要將視覺信息轉化為文本描述,再轉為控制指令,而是直接學習物理世界的交互規律。
小鵬汽車自動駕駛負責人劉先明表示,去掉VLA中的L,是小鵬團隊認為的、更大規模使用數據的前提。
劉先明解釋稱,過去幾年AI發展的最大原動力來自于不停的使用規模數據訓練,但如果想要更大規模地使用數據,一定要拆掉所有的separation(模塊界限),讓它變成一種「自監督」模式。
「很多VLA架構基本都是圖像進來,通過一個大語言模型最終輸出——Meta action(高級抽象的動作指令),Meta action一般是文字,然后再通過文字的方式處理后輸出。這種方式最大的好處是有眾多開源模型可以使用,可以直接拿開源的NLP模型來做推理。」
但只要有語言存在,就一定涉及到人工的篩選或標注,比如一段1200多字的文字描述也無法精準地「翻譯」一個十幾秒的視頻:
「這樣會讓數據使用的規模受到限制,而一個系統只有去掉所有中間瓶頸,才可能大規模地做起來。」
而以視覺為核心,把模型看到的世界直接轉換成運動軌跡,就可以直接利用海量的真實駕駛視頻進行訓練,而無需任何人工數據標注。
這是小鵬選擇去掉L的底層邏輯。
但實際上,小鵬的第二代VLA并沒有完全拋棄L,在何小鵬給出的模型架構圖中,L被當作V的并行信號,同時輸入給模型,以產出Action(動作)。
「我們說V+L,強調的是轉譯環節沒有變成人類的語言和格式,而是變成了一個物理世界的新語言,所以它不是人類可見、可認知的語言,但效率更高、信息更豐富。」
第二代VLA讓自動駕駛回到了劉先明認為的物理世界交互的本質:直接輸出控制信號。
「如果我最終輸出的信號直接是‘行為’,它其實包含了重建、理解、生成和最后推進的所有過程。如果可以用更大規模的數據、更大的模型將這件事做下來,理論上就可以解決這個問題。」
小鵬智駕團隊的這一做法,在智駕網看來與DeepSeek團隊最新開源的一項技術突破——《DeepSeek-OCR: Contexts Optical Compression》有異曲同工之處。
該論文通過實驗數據展示了通過圖像壓縮技術來處理文本,從而實現大模型上下文窗口的10倍級無損擴展。
這一技術的核心是將文本處理成視覺token,也就是將文字渲染成圖像,并直接編碼成模型能理解的語義單元。
這意味著,這些視覺token本身就是模型可以直接使用的語義信息,無需額外的解壓步驟。視覺token不僅節省空間,提高了處理效率,并在推薦算法和多模態交互方面提供了增強體驗。
將VLA變為V+L,正是利用了視覺數據的優勢,解決了一個一個文字信號的數據結構化和離散性,容易導致大量信息損失的缺陷。
而視頻包括其它傳感器的數據都是連續信號,輸出空間也是連續的,這對于智駕系統在控制車輛時保持信號的連續性有天然優勢。
![]()
劉先明以剎車信號為例:看似是0.21和0.22的區別,兩個信號的差異不是0.1的問題,而是撞和不撞的問題,這是個連續信號,沒有辦法通過離散化的Token方式輸出它。
換句話說,第二代VLA讓何小鵬堅持的視覺智駕技術路線具備了先天優勢,當然這一優勢尚需工程和量產驗證。
但現在第二代VLA帶來的驚喜和突破已讓小鵬的智駕團隊篤信:
「一個全新的大門正在打開。我們有能力在未來給大家帶來更安全、更絲滑、更強力的自動駕駛系統,我們打算全力以赴在新版本的VLA里面向前。」
「新一代VLA讓小鵬自動駕駛的升級換代節點提前了近兩年。」
在外界來看,目前小鵬智駕團隊公布的現象和細節尚有不足,對于智駕系統自我進化的能力缺乏第三方驗證。
小鵬團隊表示,一方面會在第二代VLA正式發布時公布更多的細節,另一方面也是應對激烈競爭的市場環境基于保密原則做的自我保護。
但小鵬汽車的研發架構已進行了迅速調整,側面印證了第二代VLA成功后帶來的影響。
在車端,小鵬團隊針對圖靈AI芯片重新開發了針對性的編譯器和軟件棧。
得益于「芯片-算子-模型」全鏈路優化,小鵬汽車最終做到了在算力高達2250TOPS的Ultra版車型上,搭載數十億級參數規模的第二代VLA,而行業普遍車端模型參數量目前尚停留在千萬級規模。
對于涌現是如何突然發生的,劉先明給出了一個十分「第一性」的解釋:
「大模型、大算力、大數據,堆到一塊就變成了我們推出的模型,非常簡單的邏輯,背后原理非常簡單,也沒有什么復雜的故事。」
為了嘗試新的VLA模型,小鵬投入了3萬張卡的算力集群,燒了20多億的研發費用、和相當于一個普通人駕駛6.5萬年遇到的極限場景之和的近1億視頻Clips。
簡言之,第二代VLA是在理順技術邏輯、擁有足夠投喂數據、車端硬件過硬的三重條件下「涌現」出來的。
「但是想把這件事情做好,背后的難度也是很大的,幾十個PB數據一口氣讀進來,還要在千卡、萬卡的情況下保持穩定,不要崩掉,應該沒有人能在這個規模做得到。」
但需要注意的是,目前AI的「涌現」尚處于不可預測階段,甚至有一部分技術分析認為其存在一些「玄學」特性。
這其實也是業內當初對VLA爭議的原因之一,但隨著更大規模的數據投喂,更多的訓練,AI的不可預測性會向更合理性迭代。
03.
物理AI讓自動駕駛變得簡單
在今年年初,黃仁勛在CES的開幕演講中將人工智能的發展總結為四波浪潮:感知式AI——生成式AI——代理式AI——物理式AI。
他認為:
「機器人技術的ChatGPT時刻即將到來。」
黃仁勛一手推開了物理AI的大門,并表示機器人和智駕是物理AI的兩大應用場景。
什么是物理AI?
何小鵬在科技日上解釋說:
「當數字世界和物理世界融合,將催生物理AI。」
在他看來,即使AI在數字世界中已展現出超越人類智慧的潛力,但如果無法與物理世界交互,其實際價值將極為有限。只有賦予AI「身體」,使其能走、能看、能交互,AI才能真正改變人類的生產與生活方式。
![]()
在跑通第二代VLA之后,小鵬理解和推演的物理世界模型也隨之成型,它在理解真實世界交互規律的同時,進行自我演進式學習,并且該模型可跨域驅動汽車、Robotaxi、機器人和飛行汽車。
為此,何小鵬在今年的科技日先后推出了全新一代人形機器人IRON、新一代飛行汽車,并公布了三款在研的Robotaxi計劃。
這是何小鵬判斷的數字世界和物理世界融合的開始。在這一新的技術趨勢下,將會誕生「擁有理解、交互和改變世界能力的機器」。
而自動駕駛放在物理AI的邏輯項下,在劉先明看來是最簡單的問題:
「你要嘗試去理解這個世界,對它做三維的建模,去推演整個世界要發生什么,做預測,再根據這些做出最安全、最符合人類意識的一種選擇,這就是物理AI的本質。」
劉先明認為,自動駕駛的所謂「簡單」體現在只有兩個自由度,向前的加速度和方向的轉角,相比于正常機器人來說,它的自由度會小很多,舒適空間會少很多,數據也更容易獲取。
「所以我們要解決物理AI 的問題,第一件事就是做自動駕駛,去解決最核心的問題。」
基于第二代VLA,小鵬汽車即將發布「小路NGP」功能,顯著提升復雜小路與混行環境下的智駕表現,復雜小路的平均接管里程(MPI)提升了13倍。
此外,小鵬汽車還行業首發了「無導航自動輔助駕駛」Super LCC+人機共駕,它不依賴導航全球范圍均可開啟,在漫游的過程中輕轉方向盤,車輛即可協同完成變道和轉向。
對于第二代VLA,何小鵬已宣布面向全球商業伙伴開源,大眾汽車集團將成為除小鵬外的第二代VLA首發客戶;「供應商」正在成為小鵬的附帶身份之一。
![]()
與C端自動駕駛同步成行的,即是小鵬預告很久的Robotaxi。
硬件層面,小鵬的Robotaxi車型將搭載4顆圖靈AI芯片,車端算力達3000TOPS,包括2250TOPS運算算力和750TOPS冗余算力,并在算力、轉向、感知等多方面采用兩套硬件互為備份,官宣的三款車型將在車身尺寸和車內布局上有所區分。
小鵬第二代VLA模型將成為小鵬Robotaxi的軟件基礎,后續這一版本將命名為「Robo」,成為C端用車的全新智駕版本,與Robotaxi共享硬件配置和智駕能力,并提供兩種智駕模式選擇。
在何小鵬看來,相比于目前已經在全球布局的Robotaxi公司,小鵬最大的優勢是成本和技術。
首先是作為整車企業,其Robotaxi的BOM成本和軟件開發成本都可以與乘用車共享。
其次,隨著第二代VLA帶來的能力提升,小鵬Robotaxi在大規模鋪開過程中無數據標注、無信息損失,理論上來說只要這個地方有足夠多小鵬自己的車,就可以搞定這件事。
這一方面強化了泛化的能力,另一方面也能更高效地滿足監管要求,為面向全球合作伙伴開放提供了可能。
「當你解決了一個問題之后,你發現之前很多解決不了的難題,正在被新的方法論非常輕易地解決。」
04.
一款讓人激動、引發爭議的機器人
在何小鵬公布的第二代VLA序列推送的時間表中,先鋒共創體驗將于今年12月啟動,2026年一季度隨Ultra車型全量推送,Robotaxi業務同樣將在2026年發布并啟動試運營。
而機器人和飛行汽車,將是小鵬在未來十年改變世界的機器。

盡管依然不是量產版本,但小鵬第二代IRON機器人已成為小鵬今年最驚艷的一款產品,它引發了「究竟是不是真人」的廣泛關注,以至于何小鵬不得不臨時加演了一場現場「剪腿」自證并非真人表演。
這一次輿論喧囂,其實是引發了大眾對機器人領域的一個古老話題的關注:人形機器人是不是一定要做得高度類人?
何小鵬其實在第一時間向媒體解釋了三個原因:
第一,今天機器人想做到聰明,不能用規則,要用AI來驅動,只有從人類世界(才)可以學到最多的數據。
第二、家庭、工廠,實際上大部分都是為了方便人類去使用而設計、建造、運營的,所以如果它越像人,越容易適應這個世界。
第三、類人容易增加親近感,從而促進銷售實現規模化的正向循環。
小鵬汽車機器人副總裁、AI技術委員會負責人米良川(LC)在與智駕網溝通過程中則提到了一個讓業內思考的工程問題:
「為什么機器人會長成特定的樣子?是因為機器人技術不夠強大或者不夠通用場景,當你解決一個問題的時候,你會為一個場景做定制化的硬件,實際上就是一種Special designed hardware(專門設計的硬件),就是For dedicated Use case(專用案例),這種情況下,帶來的結果就是你的硬件設計跟你的使用場景是強綁定的。」
米良川認為,此前多次機器人熱潮的停滯,一個普遍現象是每次功能迭代都需要機器人修改硬件,這很大程度制約了機器人行業的發展速度。
「通過小鵬機器人的努力,能否摸索出一條道路,把機器人產業的技術迭代從硬件模式變成軟件模式?」
而采用高度類人的路線,則有望可以實現米良川希望的「軟件模式」迭代,進而后續對于硬件端的改進,也便有了更穩定的方向。
在第二代IRON的開發過程中,小鵬的機器人團隊首先為其確認了腰和脊椎的硬件狀態,另外在IRON的前腳掌也增加了自由度。
![]()
而在軟件層面,何小鵬向智駕網透露,在機器人與整車的生產過程中,盡管沒有具體數字統計有多少零部件共享,但是軟件和AI方面共享了很多,「感知」、「域控制器」大部分都是一樣的,「AI軟件」其中70%是一樣的。
在此基礎上,小鵬計劃為其引入全新AI系統「VLT」,該系統可接收視覺與語言輸入,直接輸出并生成任務系統。
這讓小鵬機器人與與自動駕駛一樣,迎來了自己的「涌現」時刻,也就是戲劇性的引發本次爭論的機器人「走貓步」。
「就在今年3月的一個晚上,IRON在倒退行走時突然變得非常擬人。這是我們生成式控制器的一個拐點,但我也說不清楚到底是哪次優化帶來了變化,只能說當數據和算力達到了一定程度,就實現了階躍。」
面對媒體,何小鵬絲毫沒有掩飾對機器人產業的樂觀判斷,他認為汽車一年生產9000萬臺,在全球是10萬億美金的市場;而機器人是20萬億美金的市場,雖然可能需要10~20年的時間發展,但最終可能形成一個2億臺或者更大規模的人形機器人市場。
而在未來十年,機器人業務有望超過整車,在銷量規模上,將超過100萬臺。
在一個高度內卷的市場,雖然小鵬汽車的銷量剛剛有所突破,但小鵬汽車尚未實現盈利之時,為什么選擇同步推進機器人、Robotaxi、飛行汽車等長周期的項目?
米良川回答說:「是相信。」
「之前也有人說小鵬很有眼光,飛行汽車、機器人都做對了,新能源也做對了,但實際上根據我的了解,更多是相信的力量,不是完全看到了這個機會,而是相信這個事情,且,愿意為之投入。」
![]()
因為相信所以敢于堅持,11月5日在小鵬科技日的中央舞臺,何小鵬宣布公司定位進一步升級:從「未來出行探索者」進化為「物理AI世界的出行探索者,面向全球的具身智能公司」。
一周之后,因為人工智能和機器人等新產品的發布超預期,港股小鵬市值暴漲15.11%,截至發稿,小鵬汽車總市值達2022.4億港元,超越了吉利汽車的1817.3億港元。
自11月以來,小鵬股票累計漲超20%。
站在一個新十年的起點,小鵬的勇氣與堅持正收獲來自資本市場的認可與期待。
【關注智能汽車,關注智駕網視頻號】

關注汽車的智駕時代上智駕網(http://autor.com.cn)
合作or新聞線索提供,聯系郵箱:editor@autor.com.cn
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.