網易首頁 > 網易號 > 正文申請入駐

都在吹小鵬二代VLA，它到底厲害在哪？

2026-04-05 20:14:39　來源: 百車全說

江蘇舉報

分享至

百車全說

別人研究車，而我研究你！

今天咱們聊聊，前不久小鵬發布的第二代VLA，也就是第二代VLA物理世界大模型。沒關注智駕領域的人可能都聽不懂這是個什么東西，關注智駕的朋友，可能聽起來不明覺厲，但也很難說清楚好在哪里，背后是什么原理，今后買車如果更看重智駕，小鵬帶有二代VLA的車型，是不是應該優先考慮？

今天這篇文章，咱們詳細聊聊這玩意到底是真厲害，還是說只是停留在概念上而已，是吹的天花亂墜，還是真有兩把刷子？

什么是VLA

VLA就是“Vision-Language-Action”，視覺-語言-行動模型，一聽就懂，相當于看到了什么-用文字描述出來-再根據文字執行動作。之前大家經常聽到“端到端”智能駕駛，就肯定會聽到VLA這個詞，對吧。現在大家買車，只要帶智駕的，無非是有激光雷達，沒有激光雷達兩個版本。沒有激光雷達的智駕走純視覺路線，有激光雷達的智駕，他其實主要也是靠視覺，只不過帶了激光雷達，相當于多了一重保障，走的是融合感知方案。但無論哪種方案，有了更先進的硬件做基礎，所以這兩年各家都在VLA這條路上一路狂飆。

小鵬二代VLA之前，智駕經歷的三個階段

而在智駕領域，小鵬的二代VLA技術出來之前，還經歷過三個階段。

第一個階段，是典型的模塊化方案加高精地圖。說白了，就是把感知、預測、規劃、控制拆成一個個模塊，再靠人工編寫規則把它們串起來。車先靠傳感器識別車道線、紅綠燈、路牌、障礙物，再結合高精地圖，去判斷自己現在在哪、該往哪走、下一步該怎么做。這套方案的問題在于，規則是人提前寫死的，地圖也是提前標好的，所以它對已知場景處理得還行，但一旦碰到沒見過的、沒覆蓋到的、或者地圖和現實有偏差的情況，系統就容易發懵。它不是不會開車，它是只會開自己提前背過答案的那條路。早期自動駕駛廣泛采用這種模塊化棧，而且高度依賴精準定位與高精地圖，這也是后來行業越來越想擺脫它的重要原因。

第二個階段，就開始從人工寫規則，升級到讓模型通過海量駕駛數據去學習，也就是大家常說的端到端、或者偏端到端的數據驅動方案。你可以理解成，第一階段是老師把答案寫在黑板上，讓車背下來。第二階段是把大量人類司機怎么開車的數據喂給它，讓它自己去學輸入和輸出之間的關系。比如，前面看到什么畫面，后面就打多少方向、踩多大油門、剎多大力度。

這個階段比第一階段確實先進，因為它減少了人工規則堆砌，提升了訓練和迭代效率，但它本質上還是一種映射學習。也就是說，它更像是在模仿，而不是在真正理解。換句話說，訓練里見過的場景，它會越來越熟。但是訓練里沒見過的長尾場景，它照樣可能不會。

而且第二階段還有個很致命的問題，就是黑箱。你看到的是它做出了動作，但你很難準確說清楚，它為什么這么做。出了問題，往往只能看到結果不對，卻很難一層一層地追溯，到底是感知錯了，還是理解錯了，還是規劃錯了。換句話說，它會開，但它不太會解釋。它像一個做題很快的學生，答案可能能寫出來，但你讓他把解題過程完整復述出來，他不一定講得清楚。對于智駕這種高安全要求的系統來說，這件事就很麻煩，因為你不光要它會做，還要知道它為什么這么做，出了問題怎么查，怎么改，怎么驗證。

接下來，就到了第三個階段，也就是一代VLA，視覺—語言—行動模型。

這一代跟前面最大的區別，不是它終于看得更清楚了，而是它開始試著先理解，再行動。以前的系統，很多時候是看到畫面，直接輸出動作，中間像一根線，輸入接輸出，快是快了，但到底理解了多少，不好說。VLA不一樣，它把視覺信息、語言知識和行動決策放進了一個更統一的框架里。它不僅想知道前面有車、有燈、有行人，它還想進一步理解，這個場景里誰更危險，哪個目標更關鍵，這個行人是在等待，還是準備突然橫穿，這輛電瓶車接下來大概率會不會并線，這個路口真正該優先處理的矛盾是什么。

VLA的核心就是把視覺感知、語義理解、語言推理和軌跡/動作輸出更緊地連起來，而不是只做機械的畫面到動作映射。

所以總結來講，第一階段，是把規則寫死，像查字典、翻說明書開車。題庫里有，它就會。題庫里沒有，它就愣住。

第二階段，是通過數據去模仿，像看別人怎么開，自己照著學。學得多了，很多常見題也能做得不錯，但它更像小鎮做題家，不是真正理解題意，只是為了刷到過，填上了正確答案而已。題目稍微拐個彎，或者換個沒見過的說法，它還是容易翻車。

第三階段，也就是一代VLA，才開始往理解題意這個方向走。它不是單純記住：看到這個畫面就該往左打一把，看到那個路口就該踩一腳剎車。它開始嘗試回答另一個更關鍵的問題：我為什么要這么做。它會把環境里的視覺信息，和更高層的語義知識、行為邏輯結合起來，再去生成動作或者軌跡。

所以理論上，它對陌生場景、長尾場景、復雜交互場景，會比前兩代更有潛力。現在很多VLA論文都在強調一件事，就是想讓車不只是會反應，還要會推理，會解釋，會按更接近人類駕駛邏輯的方式處理復雜場景。

所以，在VLA之前：感知≠理解，只能“看到”，不能“看懂”；動作≠推理，只會“條件反射”，不會“思考”。在VLA之后：視覺+語言+動作深度融合，具備語義理解、常識推理、泛化能力，能看懂路牌、理解場景、推理因果、應對未知障礙，基本實現了“看懂+聽懂+做對”。

小鵬二代VLA有什么不同

如果說一代VLA，解決的是車開始試著看懂這個世界，那二代VLA，解決的就是車看懂以后，能不能像人一樣把前因后果串起來，再決定下一步該怎么做。這個差別看上去只是從能理解，到更會理解，但本質上已經不是同一個層級了。

一代更像一個已經挺聰明的實習生。你把場景給它，它能大致看明白，也能做出八九不離十的動作。它知道前面是路口，旁邊有行人，左邊有車插進來，這時候該減速，該觀察，該避讓。它比前兩代強的地方，在于不再只會背題，而是開始會讀題了。可問題在于，它很多時候還是停留在看懂這一層。它知道發生了什么，但對為什么會這樣，接下來大概率會怎樣，理解還不夠深。

二代VLA想做的，是從看懂眼前，往看穿局勢再走一步。它不只是識別這是不是一個路口，這是不是一個行人，這是不是一個施工錐桶。它還要判斷，這個行人是準備過，還是只是站著等人；這臺電動車是在正常靠邊，還是下一秒就要突然斜切；前方這臺車減速，是因為擁堵，還是因為它也發現了前面有風險；甚至一個交警抬手的動作，到底是在讓你停，還是讓對向先走。說白了，一代更像是把場景翻譯成動作，二代開始試著把場景翻譯成意圖。

拿同一個最典型的場景來說，前方是個沒有明確保護的路口，右側有個大車遮擋視線，路邊站著一個人，身后還跟著個小孩。這個場景，一代VLA大概率也會減速，也會謹慎，也知道這里有鬼探頭風險。但它更像是一種經驗性反應，因為它識別到了危險構型，所以先保守一點。二代VLA如果做得更成熟，它不是單純知道危險，而是會進一步推理，這個大人站位靠前，頭朝路口，小孩身體有前傾趨勢，而且兩個人之間沒有明顯牽手約束，那下一秒小孩突然沖出來的概率就高。它的動作就不只是減速，而是更早收油，更堅決備剎，甚至在通過這個遮擋區之前就把整套風險預案先擺出來。表面看都是慢一點，背后其實完全不是一個思路。一個是看見風險再應對，一個是預判風險要發生，所以提前站位。

再比如一個更復雜的城市場景。前面紅燈被雪覆蓋住了，路口還有交警在指揮。對一代VLA來說，它也許能識別出交警動作，也能結合周圍車流做出一個相對合理的選擇，但這個過程更像是把多個信號拼起來，哪個信號更明顯，更有把握，它就聽誰的。

二代VLA追求的則是對交通秩序優先級本身的理解。它不是簡單地看見一個人在揮手，而是知道在這個時刻，現場人工指揮的權重高于被遮擋的信號燈，高于地圖預期，高于靜態交通規則。它不只是識別了動作，而是理解了這個動作在整個交通系統里的角色。所以它給出的動作不像一代VLA，靠蒙，而應該更接近人類老司機那種我知道現在該聽誰的判斷。

再往下說，同樣是施工繞行場景，一代VLA可能會表現得像個很謹慎的好學生。它看到錐桶，看見臨時改道，看見地面線和導航線對不上，就開始小心翼翼往前蹭。只要場景還在它理解邊界內，它也能過。

但二代如果真做起來了，它會表現得更像一個經驗豐富的司機。它會知道這里雖然地上還是舊線，但大家都在跟著臨時導流牌走；雖然左邊理論上能走，但前車軌跡、護欄開口、施工人員站位都在告訴它正確路線其實是往右借道。這個時候它不只是避障，而是在還原現場臨時秩序。一個是在復雜場景里勉強不犯錯，一個是在復雜場景里主動找到真正的通行邏輯。

所以，一代和二代最大的區別，不是識別精度從九十分提到九十五分，也不是剎車更柔了、轉向更順了。這些都只是結果。真正的核心差別在于，一代主要還是在做場景到動作的映射，二代開始做場景到意圖，再到動作的推演。前者更像經驗驅動，后者更像世界模型驅動。前者是我見過類似的，所以我知道大概怎么辦。后者是即便我沒見過一模一樣的，我也能根據這件事為什么會發生，推出來接下來應該怎么做。

所以你看，這背后邏輯其實也不難理解。因為真實道路最難的，從來不是那些標準題，而是那些沒有標準答案的半開放題。紅綠燈誰都能認，車道線誰都能看，難的是線被磨沒了、燈被擋住了、人不按套路來、車和人都在互相試探。

你要真想把智駕往上推，不可能永遠靠擴題庫。題庫擴得再大，也擋不住現實世界每天都在出新題。所以一代VLA是讓車第一次開始擺脫死記硬背，二代VLA則是繼續往前走，試著讓它具備一點舉一反三的能力。

當然，你也可以把它理解成，一代是在讓車從條件反射進化到初步理解，二代是在讓車從初步理解進化到連續推理。前者解決的是別再像機器人一樣開車，后者解決的是能不能像人一樣，把這個路口前后三秒鐘會發生什么，在腦子里先過一遍，也就是我們說的防御型駕駛。

說到底，誰更接近真正的比老司機還老司機的智駕，不在于它吹得多玄，而在于預判的準確。

哪些車可以升級VLA二代，有什么區別

聽完上面這段，你是不是會覺得，神了，小鵬的VLA二代等于自己有思想了啊，這豈不是離自動駕駛更進一步了嗎？但依我看，這里面問題還是有很多的。

首先，按小鵬目前官方披露的信息，第二代VLA除了推送給三顆圖靈芯片的Ultra版，也會推送給雙圖靈的UltraSE，以及部分單圖靈的Max，只是版本和推送節奏不一樣。比如小鵬P7官方寫得很清楚，UltraSE是2顆圖靈AI芯片+第二代VLA，Ultra是3顆圖靈AI芯片+第二代VLA和VLM大模型。

小鵬G6的說法更直白。官方明確說，Ultra、UltraSE版本會在4月開啟第二代VLA全量推送；Max版也會在今年下半年推送蒸餾后的版本。也就是說，單圖靈的Max不是完全上不了，而是上的不是和Ultra完全同一檔的版本，你可以把蒸餾版，理解為閹割版、殘血版。

至于更老的平臺，尤其不是圖靈芯片那一代的老車，目前我沒有看到小鵬官方給出能直接升級到第二代VLA的明確承諾，我看也有媒體說，未來會給雙Orin-X推蒸餾版。

目前，三顆圖靈芯片的包含：P7Ultra、G7Ultra、X9Ultra、G6Ultra等

兩個圖靈芯片的包含：X9UltraSE、G7UltraSE、G6UltraSE等。少了未來的座艙融合能力，其他全一樣。

一顆圖靈芯片的包含：P7Max、G7Max、G6Max等。只覆蓋高速、城市主干道，沒有全場景、沒有極端場景能力。

記得小鵬剛亮相三顆圖靈芯片的時候，我還不太建議大家入手Ultra版本，我覺得以當時小鵬的智駕能力，三顆圖靈芯片完全是性能過剩。但現在看到二代VLA的能力，我覺得當下如果你要買小鵬的車，三顆圖靈芯片的Ultra版應該是首選。

三顆圖靈芯片分工非常明確，兩塊芯片組成一個超強的計算單元，專門負責自動駕駛，所有的感知融合、規劃決策都在這里完成；另一塊芯片獨立出來，專門負責所謂的智能座艙，也就是你的語音助手、車載娛樂、導航地圖、手勢識別等功能。

為什么要這么做？

因為以前很多車的自動駕駛和娛樂系統是共享計算資源的。就像在一個家庭里，哥哥和弟弟用同一臺電腦，哥哥要寫畢業論文，弟弟非要看動畫片。結果就是：你可能在高速上讓車自己開，同時又想導航、聽周杰倫的歌。就在你喊出“播放《聽媽媽的話》”時，系統為了渲染歌詞、字幕或加載高清MV，占用了GPU的一點點資源。就這零點幾秒的反應延遲，可能在遇到緊急情況時導致一腳急剎。你以為是前面有危險，其實是系統內部的資源沖突、內存被打斷導致的“幽靈剎車”。

小鵬的這個三芯片方案，就是用最物理、最直接的方式解決問題：開車的歸開車，聽歌的歸聽歌，兩個大腦互不干擾。

這是一種典型的垂直整合工匠思維：從最底層的硬件到最上層的軟件，每一個環節都要自己掌控，做到極致優化。這種做法的好處是將性能榨干到極致：

小鵬這三塊“圖靈芯片”并聯的總算力達到了2250TOPS。

(a)作為對比，NVIDIA下一代旗艦平臺DriveThor的算力是2000TOPS。

(b)這意味著小鵬的自研方案在量產車上，紙面參數比芯片巨頭NVIDIA的下一代產品還要高。

配備了總共216GB的超大內存，這導致了一個質變：

(a)他們可以把一個高達300億參數的大語言模型完整地塞進車里，實現本地化運行。

(b)以前的車只能跑幾十億參數的模型，遇到復雜問題（如看不清前方事故）需要把數據傳到云端計算再傳回，這一來一回可能半秒鐘就過去了。

在開車的世界里，半秒鐘就是生與死的距離。小鵬的XREA2.0因為模型在本地，整個思考過程（從發現問題到執行決策）在50到100毫秒內就能完成，甚至比人類的反應還要快很多。這就是垂直整合、死磕硬件帶來的巨大優勢。

那么，NVIDIA又是怎么操作的呢？

比如說，你可以給系統加一個語言提示，就像給AI大廚一個指令：“今天做菜，安全和舒適是第一位的，不要追求速度。”然后整個車的駕駛風格就會變得更柔和、更保守。這就是一種“水平擴展”的平臺思維。它的優勢在于：

1. 讓更多的車企能更快用上最先進的技術

2. 給了車企定制化的空間（這在歐洲、日本這些法規嚴格且獨特的地方尤其重要）

所以這里就出現了兩條完全不同的路徑：

小鵬：像是一個頂級的工匠。他要親手打造一把完美的寶劍，從煉鋼、鍛打到開刃，每一個細節都自己來。雖然能打造出鋒利無比的劍，但很有可能這把劍只有他自己用得最順手。

NVIDIA：像是一個軍火商。他打造了一個可以生產各種武器的兵工廠，把圖紙和生產線開放給你，讓你自己去造適合自己的槍炮。所以這場硬件的戰爭，可能沒有絕對的誰贏誰輸，它更像是一場關于未來的哲學辯論：是把一輛車本身打磨得越來越聰明，最終成為一個接近完美的個體；還是創造一個生態，讓世界上所有的車都能更容易地接入到這個智能網絡里？是不是有點蘋果跟安卓的感覺了？

前面聊的是硬件方面的不同思路，下面再講講關于軟件方面。在VLA這個大的框架下，其實不同的公司對智能的理解，也會有一些不同的分化。這里面會出現兩種有意思的AI人格，一種是預言家，另一種是自省者。

我們先說預言家，它的代表就是理想汽車。理想汽車它有一套系統叫做MindVLA-o1。它比較厲害的地方在于，它不僅能看清楚現在，而且它能生成未來。

什么意思呢？傳統的自動駕駛是“看到，然后再反應”這種模式。我看到一個行人，我計算它的速度和方向，然后我決定是剎車還是繞行。但理想的這套系統，它在看到那個行人的瞬間，它的大腦里面，或者說它的計算模型里面會立刻生成好幾個未來三秒鐘的3D動畫短片。第一個短片里面，這個行人停下來看手機；在另一個短片里面，他突然加速跑向馬路對面；在第三個短片里面，他可能被旁邊的一輛自行車嚇到，往后退了一步。那么系統可能會同時推演十幾種可能性，并且給每一種可能性分配一個概率。然后它會選擇一個無論在哪種未來里都最安全的駕駛策略。

這就跟下圍棋一樣，圍棋的高手落子之前腦子里面，已經推演了后面十幾步甚至幾十步的所有變化。那么這種能力在處理一些比如像行人鬼探頭，或者路口闖紅燈的電動自行車，會有非常大優勢。因為它不是在反應，而是在預判。它在毫秒之間就已經看到了那個潛在的危險，并且提前做好了規避動作。

那么這種生成式世界模型的技術背后，就是有著3D高斯濺射這樣非常前沿的圖形學和AI技術。它構建的不是一個平面的鳥瞰圖，而是一個可以被推演，可以被想象的活生生的三維世界。當然了，這么做的代價就是算力的消耗極大。但是理想汽車賭的是對未來的判斷，所以他們覺得，這帶來的那一點點安全冗余是值得的。

所以，理想汽車這是預言家，也就是向外看，試圖窮盡世界的所有可能性。

那么自省者是什么意思呢？

自省者，它的代表是一家叫做DeepRoute.ai元戎啟行的公司。他們在GTC大會上展示了他們的VLA模型，一個高達400億參數的龐然大物，這個模型最有意思的是它的架構。他們的系統在開車的時候可以一心三用，你可以想象它有三種人格：司機、分析師和批評家。是不是有點像狼人殺？

1.司機

他負責實時開車處理眼前的路況，能夠做出轉向、剎車、加速的指令，這是他的本職工作

2.分析師

他在后臺默默地觀察著司機的一舉一動，并且不斷地分析周圍的環境。當遇到了一些關鍵的、復雜的或者危險的場景時，比如說一次緊急避讓或者一個處理的不太完美的變道，那么分析師就會立刻把這個場景記下來，并且進行因果分析。剛才為什么會差點撞上了，是因為我沒看到他，還是因為我預判錯了他的意圖？

3.批評家

他不關心具體的操作，他只負責評價司機開的好不好。他會從三個維度來打分：安全、舒適，還有是否自然。比如說，剛才那個變道雖然安全，但是動作太生硬，讓乘客不舒服，要扣分。這一次過路口讓行讓得太猶豫了，像一個新手不夠果斷，扣分

所以，這三個人格同時工作，形成一個完美的閉環。

司機在開車，分析師在找問題，批評家在打分。然后那些被標記出來的壞案例和有價值的案例會被系統自動優先提取出來，進入下一輪的模型訓練，這就形成了一種自我進化的機制。他不再需要成千上萬的人工標注員，去從海量的視頻數據里面大海撈針一樣，去找那些有用的訓練素材，他自己就成了自己最嚴格的老師，自己給自己找茬，自己給自己改作業。

所以這個模式最終帶來的結果是驚人的。

傳統車企的數據迭代周期可能是一周甚至更長，而元戎啟行就宣稱他們的迭代周期，可以縮短到只要12個小時。那么這就意味著他們的AI司機學習和進步的速度，是別的企業的4倍到14倍。他可能今天犯的錯，明天就不會再犯了。

所以你看，理想的預言家是向外看，要理解預測這個復雜的世界。而元戎啟行是自省者，是向內看，試圖反思和完善自己的人格。他們其實都在用VLA，都在用語言和邏輯來解釋這個世界，但一個在預測未來，一個在反思過去。

所以你說哪個更能接近我們人類頂尖司機的駕駛直覺呢？其實我覺得可能兩者都有。一個優秀的司機既要眼觀六路，預判風險，也要在每次開車后默默地復盤自己哪里做得不好。所以這兩種AI人格的沖突和融合可能就是通往真正通用人工智能的一條必經之路。

真正的難點

前面聊了那么多，大家聽了應該也很興奮，覺得離自動駕駛越來越近了。但是大家想過一個問題沒有？技術再厲害，算力再強，數據再多，最終還是要解決一個最根本的問題，就是我們作為人類敢不敢用它，敢不敢把自己的生命交到一個機器手里。

畢竟在大馬路上和坐在高鐵里，它是完全不一樣的。開車沒有軌道，沒有固定的路線，它沒有一個不受干擾的封閉的環境，一切都是開放的。但你發現沒有，當開車環境無法改變的時候，通往自動駕駛最核心的一個環節，其實是“可解釋性”帶來的信任重構。

過去幾年自動駕駛的事故，每一次都鬧得沸沸揚揚。出了事，車企的工程師站出來，面對監管機構和媒體的質問，他們能做什么呢？他們只能是攤開手給你看一堆復雜的神經網絡權重圖，或者幾百頁的日志代碼，然后告訴你，根據我們的模型分析，當時系統的決策在概率上是最優解。這種解釋你聽得懂嗎？普通人都聽不懂，所以監管者也很頭疼。

這就像一個醫生做完手術，病人出了問題，家屬問他，為什么？他說我們嚴格按照一本你看不懂的醫學操作手冊進行的，書上說這么做成功率是最高。你說這個解釋你能接受嗎？你肯定不會啊，你只會覺得他在推卸責任。

而二代VLA的出現徹底解決了這個問題。那么再回到我們開頭說的那個場景，現在如果監管機構問小鵬，你的車在那個路口為什么減速，你的依據是什么？工程師不用再甩出一堆的圖表，他可以直接播放車里的那一段車載語音，語音里說：

“我觀察到前方有臨時路牌，但是信號燈被積雪覆蓋無法識別。因此，我會根據前方穿著制服的交警，他的手勢指引慢速通過。”

這是一個清晰、有邏輯、符合人類常識的解釋。那么監管者一聽就明白了，原來你當時的這個動作，你的判斷是這么想的，這個思路很合理很安全。甚至于他們可以進一步討論，如果當時沒有一個交警站在那邊去指揮，你會怎么做？VLA系統甚至可以回答：

“如果沒有人指揮，無法確認路權，那么我的策略就是停車等待，直到確認安全，或者請求人類接管。”

所以你看，當機器可以用語言來解釋自己的決策邏輯的時候，它就不再是一個冰冷的、不可知的“它”，而變成了一個可以溝通、可以理解的伙伴。

這種可解釋性帶來的影響是連鎖反應：

1.監管層面

中國的監管機構現在已經開始批準L3級別的自動駕駛上路，他們的審批要求里面很重要的一條，就是決策的可解釋性和透明度。這幾乎是在倒逼所有的車企，必須往VLA這個方向走。

2.保險公司

保險公司有資深人士透露，他們正在開發新的車險產品，未來能夠提供清晰決策日志、能夠解釋自己行為的車輛，保費會大大降低。而那些還在使用黑盒子的系統，保費可能會高得離譜。為什么呢？因為責任清晰了，出了事故，一看日志，是系統判斷失誤，還是硬件故障，一目了然。這對于保險公司來說，就降低了最大的不確定性。所以這是一個巨大的經濟杠桿。

3.公眾的信任

最后，也是最重要的，是公眾的信任。當你坐在一輛自動駕駛的車里，他突然靠邊停車，在你正不太理解這個動作時，車內語音告訴你：“不要擔心，我正在為右后方快速接近的救護車讓路。”這時候你會怎么想？無數次解答你的疑惑，你會發現，這種透明是任何參數、任何技術參數都換不來的信任構建的過程。

所以，2026年這一場自動駕駛的革命，我覺得最核心的關鍵詞不是算力，不是模型參數，而是解釋。這不是算法的勝利，是人類語言的勝利。語言，這個我們人類最古老、最基礎的溝通工具，在AI時代重新成為了連接技術與社會、機器與人心的那一座最重要的橋梁。

我們今天聊那么多，從硬件的戰爭到算法的靈魂，再到數據的洪流，最后落到信任的重建。這一切都指向一個結論：2026年確實是自動駕駛歷史上的一個巨大拐點。這個轉折不僅僅是車變得更聰明，而是車終于學會了用一種我們能聽懂的方式，來解釋它為什么會變聰明。

所以說，關于更宏大的所謂“物理AI”這個概念，我們不能簡單的把VLA這個架構，理解為只是用于自動駕駛。你想一想，一個能理解視覺、能運用語言、能夠做出行動的AI核心，把它從車里拿出來，放到一個機器人里，它是不是能做更多的事情？

所以，小鵬為什么同時在做汽車的自動駕駛，也在做人形機器人？現在想想，大家就都明白了。因為自動駕駛上取得的每一個突破，幾乎都可以無縫地遷移到機器人、工業自動化等等所有需要與物理世界打交道的領域。我們其實在見證的可能不僅僅是一場交通工具的革命，而是通用物理智能的黎明。所以，小鵬這家公司的價值也在被重構。

第二代VLA發布后資本市場的反應就是很好的證明，摩根士丹利、美國銀行、匯豐銀行同步給出“買入”評級，摩根士丹利的研究報告中指出：小鵬第二代VLA的落地，使其具備與特斯拉在全球市場直接競爭的能力，全球智能汽車產業的格局或迎來新的變量。

你看，現在一臺車已經從一個把我們從A點送到B點的鐵皮盒子，變成了一個可以和你溝通、幫你思考，甚至比你更了解這個物理世界的推理引擎。當我們還在討論AI會不會取代我們工作的時候，一種新的能夠理解并且改造物理世界的智能，已經悄悄地融入我們最日常的生活里。這意味著什么？沒人能說得清。但這種感覺是不是就像我們第一次看到iPhone，或者第一次連上互聯網一樣？你知道世界將因此而改變，只是這一次改變的可能不只是信息世界，而是我們身處的這個實實在在的物理世界本身。

想和三刀做朋友？想和三刀的讀者做朋友？

平時不能說，不方便說的

咱們在這里暢快聊~

高質量答疑，高含金量資訊，自媒體學習

全在三刀的知識星球

BBA不裝了，豪車的好日子結束了

徹底殺死燃油車的全固態電池，真的要來了嗎？
大換代的日產軒逸（參數丨圖片），油車也要跟電車拼智商了？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.