網易首頁 > 網易號 > 正文申請入駐

對話卓馭CTO馬陸：單一垂類難養活智駕公司，顛覆者的可能來自大模型 | 智車星球

2026-04-13 14:32:18　來源: 智車星球

北京舉報

分享至

AI行業創新的核心就是快，只要比別人快三個月就贏了。通用大模型公司擁有更強的算力、資源與數據優勢，一旦進入物理世界，可能改變行業格局。

作者|王蕊

編輯|西子

卓馭科技 CTO 馬陸，并不急于反駁外界關于“卓馭只會做低成本”的標簽。

在他看來，這個評價某種程度上并不算錯。過去幾年，這家公司確實把大量精力放在一件事情上——如何用更小的算力、更低的成本，讓更多人享受智能輔助駕駛。

但現在，他更關心的是另一件事：當自動駕駛進入大模型時代，一家以工程效率著稱的公司，能否通過算力、數據和分發體系的重構，走出一條不同于行業主流的高階智駕路徑。

馬陸職業生涯的底色是“機器人的眼睛”。從科羅拉多大學博爾德分校計算機系博士畢業，到在大疆創新從 0 到 1 親手構建車載研發體系，這位擁有 14 年經驗、深耕自主移動機器人領域的專家，長期在研究一個問題，如何讓機器理解真實世界。

而在他看來，大模型正在改變自動駕駛行業的競爭方式。

過去，行業比拼的是功能上線速度、感知算法精度和硬件成本；而當數據驅動成為共識、端到端模型不斷擴張之后，競爭開始轉向另一套體系：數據規模、訓練能力、評測系統以及組織效率。

算法依然是塔尖，但基建與評測系統，已成為托起塔尖的基石。

順著這種技術路徑往下推演，自動駕駛行業正在出現新的問題——商業模式、競爭邊界，以及技術范式本身的變化。

在這次訪談中，馬陸系統談到了自動駕駛、大模型與物理 AI 的關系，并提出了幾個判斷：

AI行業創新的核心就是快，只要比別人快三個月就贏了；
算法本身重要但也沒那么重要，數據、評測、基建、算力（訓練資源）如果跟不上，就算拿到最頂級的算法也沒用。
自動駕駛必須走向原生多模態基礎大模型，語言模態將成為理解復雜環境與實現全球泛化的重要能力；
乘用車自動駕駛模型仍然是一個極端垂類模型，很難真正養活以大模型為載體的物理AI公司；
豐田從100萬臺到1000萬臺花了48年，安卓從1臺到1億臺只用了2.7年，自動駕駛真正的挑戰，不只是技術，而是分發，沒有標準化硬件平臺，再好的技術也難以快速規模化；
自動駕駛最大的潛在競爭對手，可能來自行業之外，通用大模型公司擁有更強的算力、資源與數據優勢，一旦進入物理世界，可能改變行業格局；
未來的競爭，本質上是通用 AI 在真實世界中的能力擴展，自動駕駛只是“沒長手的物理 AI”。
AI時代真正的護城河：一是高質量數據，二是內部內部基建，包括訓練資源，三是優秀人才。組織文化、組織效率、運營使命這些看似虛的東西，反而最重要。

以下根據智車星球與馬陸的訪談內容整理，有刪減。

AI 落地不再是少數人的“數學游戲”

媒體：最近很多公司強調模型能力已經超過人。我最近也聊到一個算法專家，他說極端情況下線上算法可能一個人負責一個模型就行了，算法崗位的人力會不會大幅減少？

馬陸：模型其實分成非常多的環節，真正能做模型架構設計、建模的人是非常少的。比如像 OpenAI 這種公司，真正的拔尖者估計也就幾十個。

在卓馭里面，我們算法團隊可能四五百人，真正對模型做深入改動、提出開創想法的人并不多。更多的人其實是在搞數據挖掘、做數據精細化、做場景數據評測，以及做 AI 基建。

AI 最終落地和傳統想法不一樣了，算法本身重要但也沒那么重要，數據、評測、基建如果跟不上，就算拿到最頂級的算法也沒用。

媒體：目前大模型行業的技術共識是什么？差異點又在哪里？

馬陸：我覺得這個行業已經達成了非常高的共識了，就是數據驅動、要端到端、搞大模型、搞數據、搞評測，其實方案都是一模一樣。

那區別在哪里呢？第一，拼速度，如果一個以AI為核心的公司，他的AI不提升了，那就完蛋了；

拼公司的文化，公司本身對AI這事情的一個包容和一個態度，整個組織是不是很AI原生的組織；

參考語言大模型行業，目前國內、國外都有頂級的大模型企業，這些企業的大模型有各自的擅長、側重場景。消費者對不同的模型在哪些場景更強，哪些場景更弱如數家珍。各個大模型廠商拼的還是迭代速度，以及誰能盡量保持些許領先。

媒體：那質變轉折的關鍵標志是什么？

馬陸：質變的關鍵還是得得有原創性的工作，通俗來說就是得有好點子，以及把它實現，一旦有一個點子成功了，整個行業一兩天內就都會知道。

一方面因為大模型行業相對開放，企業喜歡做開源、發論文；另一方面行業頂尖人才流動很容易，而 AI 行業創新的核心就是快，只要比別人快三個月就贏了，這也促使行業人才和想法都不閉塞。

自動駕駛走向多模態大模型

媒體：如何看待大語言模型（LLM）和世界模型（World Model）兩條技術路線的未來？

馬陸：人類真正想要的大模型是 AGI，是既能做腦力勞動，也能理解世界、做體力勞動的系統。

從 2020、2021 年 ChatGPT 3.0 以來，大語言模型主要做的是腦力勞動，比如語言和文本相關的工作。但語言這個東西畢竟是人類發明的，如果以文本為載體，就只能做文本相關任務，沒辦法做真實世界的事情。

如果要進入真實世界，有一派就認為，要多模態，特別是要以視覺為中心。從世界模型角度看，語言只是一個模態。即使沒有語言，只要能感知世界，也可以通過數據映射出動作。

媒體：有些玩家明確不相信 VLA 或多模態大模型路線，他們認為這條路線未必是正確的，你怎么看？

馬陸：還是要看 VLA 的含義，它每年的定義都不同。如果是問開車的時候是不是得有語言去指導動作，那我們的看法是否定的。但如果 VLA 是指多模態，特別是訓練過程中模態足夠多，提升模型的泛化能力、通用能力，那我們的回答是肯定的。卓馭堅信未來一到三年，行業內公司如果不往原生多模態基礎大模型的方向走，很難走得遠。

媒體：自動駕駛海外泛化的難題，沒有語言模態的話，用強化學習能解決嗎？

馬陸：普通人在海外開車不需要專門泛化幾千公里、上萬公里，核心原因是人類可以通過閱讀不同國家的交通法，了解不同國家的交規要求，進而讓自己的駕駛行為適配不同國家的法律法規。在這里語言模態發揮了關鍵作用，顯著降低了人類在不同國家開車的難度。

媒體：自動駕駛里的世界模型到底是什么？自動駕駛行業當前模型與大語言模型的關鍵差距在哪里？

馬陸：行業確實有很多爭論和說法。我覺得世界模型最起碼是對世界的本質有預測能力，看到一個環境，能對未來做出較準確的預測。而要構建這種預測，模型需要對環境的語義等有較高水平的理解。

如果看現在的自動駕駛行業，會發現它并沒有大模型該具備的一些特征。比如把中國的自動駕駛系統拿到印度、歐洲或者非洲，大概率不能用，要泛化，要重新采集數據。

但大語言模型沒有這個問題，全世界語言都能支持。因為它有更多的數據，是一個通用的大模型。

自動駕駛模型本質上還是一個垂類里的一個非常之垂類的模型。參數上，如果沒有帶語言模態，只是視覺模態，通常情況下連1個B（十億）都到不了。而今天語言大模型沒有700多個B，1100個B，根本就沒人看。這說明大模型這個方向就會越來越大，參數越來越多。

媒體：能不能理解為卓馭相信的是規模越來越大、模態越來越多的一條路線？

馬陸：卓馭相信的是通用的多模態原生大模型這條路線。

媒體：所以這里面必須要有語言模態？

馬陸：我認為 L（語言Language）是一個很有幫助、很有用的東西，要保證它的通用性，就需要有一個 L。特別是在訓練階段，L 對于模型的泛化性、通用性有很大的幫助。但我們希望它是一個原生的大模型，而不是拿現有的大模型簡單剪裁。

媒體：自研一個原生的多模態大模型，有什么要求？

馬陸：這是一個很高的門檻，資源投入是夸張的。

媒體：理想當時說他們一年可能投 20 億，之后每年至少 50 億投入到這個方向。這個判斷你怎么看？

馬陸：我認為理想的說法是對的。就算只是繼續疊端到端的方案，要把模型體驗做好，你要讓模型體驗越來越好，你就要越來越端；越來越端，就要越來越大的模型；模型越大，就需要更多 AI 訓練，訓練費用很容易就突破十個億。

“自動駕駛垂類養活不了AI公司”

媒體：不管是大模型公司還是智能駕駛公司，拼速度意味著領先三個月，這是不是說明研發投入是無底洞，回報又從哪來？最大的挑戰是什么？

馬陸：這個行業確實投入很大，但回報可以參考大模型公司。國內的智譜 AI、Mini Max 等大模型公司市值已經 3000～4000 億港幣，海外對標公司更是千億甚至萬億美金起步。

大模型公司能有高回報，一是跨垂類應用容易，能顛覆大量以文本處理為基礎的職業；二是 AI 分發渠道方便，有手機、電腦就能使用。而自動駕駛產品分發非常困難，因為沒有標準化硬件平臺。

如果沒有快速分發渠道，就算今天做出 L5，從 1 臺到 100 萬臺，需要多少年？豐田從年銷量100萬臺到年銷量 1000 萬臺花了 48 年。安卓從 1 臺到 1 億臺只用了 2.7 年，所以分發體系非常關鍵。

媒體：端到端這條路線有沒有上限？比如模型大到一定程度之后，能力提升就很小了？

馬陸：從業務視角看，我們為了把自動駕駛這個垂類做好，從規則到半規則，再到數據驅動的端到端，會發現單靠這一個垂類很難養活企業。

語言大模型公司市值高，核心是能跨垂類應用，可以瞬間進入很多行業，因為模型足夠通用。

而單靠輔助駕駛，一套軟件賣給主機廠，一套賣幾千塊，就算一年賣一百萬套，也就是幾十億收入。但訓練端到端模型，一年可能就要花掉10億，更別說訓練基礎模型了。

以數據驅動的自駕模型有一個特點，你要把一個垂類做好，就必須遵循數據驅動，把模型參數搞大，把能力搞強，走著走著，你會發現已經走進了通用大模型范式了，這是一個客觀規律。

所以模型越做越大之后，就會出現一個選擇：要么死守一個領域，要么跨領域。

所以我們去年宣布做空間智能移動機器人，也做卡車自動駕駛，現在六家頭部重卡客戶基本都拿下了，同時也在做 Robotaxi。我們認為未來一切“可以動的東西”，我們都可以做。

最危險的對手可能在行業之外

媒體：未來 AI 公司會不會形成數字世界和物理世界兩個陣營？

馬陸：短期內，十年內一定是分開的。但是放長到二三十年，兩個陣營會合并成一個萬能 AI，因為兩者的技術方法本質上是一樣的。

如果問我，最擔心的顛覆者是誰，我覺得也不一定是我們的同行，說不定是大模型公司，比如國內的阿里、字節，國外的 OpenAI 等等。從技術范式角度，它們有算力和投入的優勢，只是現在做的還是那種數字世界的，高價值的產品業務場景，但凡有機會，肯定會跨行的。

媒體：所以與其說是這個賽道的幾個玩家互相賽跑，不如說是自動駕駛跟大模型公司這個陣營在賽跑。

馬陸：18、19年，有很多那種專家垂類模型搞AI醫生，后面這些公司都沒了。去年年底除了個阿里的阿福，也能看病，也挺火爆的。很有意思的一個點是，一個通用的模型公司，可能就一不小心就做出了一個垂類上非常之厲害產品。

媒體：反正垂類就會被顛覆。會不會自動駕駛也是這個命運？

馬陸：不奇怪，自動駕駛本質是解決移動問題，做著做著就會走向通用移動問題，只要遵循數據驅動的方式，就會進入大模型的范式，需要持續加機器、加數據、堆資源，而回報也會很豐厚，能在多個垂類落地。

現在國內某些剛上市不久的大模型公司市值，已經超過了國內所有自動駕駛公司的總和，核心就是通用大模型能解決的問題更多，當下也找不到一個垂類數字 AI 公司能打得過通用模型公司。

算力的成本賬

媒體：自動駕駛公司有自研芯片的必要嗎？

馬陸：這取決于公司的定位、能力和投入，語言大模型公司里有一些做了自研芯片，尤其是訓練芯片的定制化，因為一年芯片采購成本巨大，也有很多公司用公有云服務也做得很好。

那對于卓馭來說，現在我們確實還是用第三方芯片比較多，今年也會找一些優秀的芯片公司，做一些芯片的定制。目前不傾向于自己花大價錢研發芯片，但也不是 100% 排除這個選項，如果自研，會傾向于自研過千TOPS的大算力芯片。

媒體：我們的VLA得用多大的算力？

馬陸：真正的通用的這個模型至少1000T以上。

媒體：有說法稱小鵬 VIA2.0 的能力得益于自研軟硬件的適配，用第三方芯片的話算法和軟件能力不能發揮到 100%，這個說法成立嗎？

馬陸：對我們來說沒有這個問題。自研芯片要考慮商業邏輯，首先是業務量夠不夠大，攤銷能不能做好，高通、英偉達做車載芯片，是因為手機、服務器、游戲機等主營業務的 IP 能分攤成本，車載業務投入幾乎可以忽略。

如果業務量不大，自研的就是專用芯片，也有市場。另外自研芯片要能帶來技術加持，比如自建 IP 并持續優化，如果做不到，自研芯片更多只是為了避免被卡脖子。

媒體：自動駕駛端測算力的需求會呈現什么樣的上漲趨勢，是算法等算力還是算力等算法？

馬陸：現在數據驅動的范式已經明確了，在這個范式下，對算力的投入是沒有上限的，不吃虧。

前幾年規則時代，堆了算力也可能用不上，而現在數據驅動時代，算法迭代很快，可能當下買的車是幾百 T 算力，過一年自動駕駛能力就跟不上了。

但如果車的算力有 2000T，雖然當下沒完全發揮，但后續公司通過算法迭代、OTA 升級，就能把算力的價值發揮出來。

自動駕駛只是“沒長手的物理 AI”

媒體：現在的具身智能是18年的自動駕駛，還是08年的自動駕駛？

馬陸：可能是18、19年吧，很火的。但是我覺得具身智能客觀上在做物理AI，但是現在很多公司不一定真的在做，他可能只是做個本體，因為做真正可落地的物理AI 太燒錢了。

我覺得自動駕駛往后發展，它也是個物理AI的一個能力分支，它只是沒長手而已。

媒體：所以卓馭什么時候能突破自動駕駛這個賽道，擴展到包括具身智能？

馬陸：已經有內部明確的計劃，應該很快會在一些場合講。當然我們更希望聚焦物理AI的移動能力。

媒體：卓馭做物理 AI 大腦的商業模式是什么？

馬陸：有很多種方式，比如我們昨天公布的一個具身智能客戶，我們給他提供計算平臺。我們希望今年會向更多具身智能公司推這個開發平臺，因為傳感器驅動、底層軟件，我們已經做得非常好了，而且產品是車規級的品質。

媒體：這是不是也說明，現在具身智能賽道的很多公司，是不是沒有大模型能力或優秀的算法能力？

馬陸：有很多具身智能公司在研究大模型的范式，前沿研究不需要太多資源投入，但如果要把技術商業化，一年投三五十億都未必能做出來，而且這只是起步，后續投入會越來越多。

從自動駕駛到更廣泛的移動場景

媒體：自動駕駛各垂直場景里面也有很大區別嗎？比如乘用車做卡車自動駕駛，是不是難度很大？

馬陸：其實只是不了解而已，卓馭一開始也覺得卡車自動駕駛很難，做了之后發現并不難，三五十個人，做一年就能把卡車自動駕駛業務做起來。核心工作就兩類，一是適配硬件接口，這是傳統工作，AI 無法替代；二是讓模型在卡車場景泛化，如果模型足夠通用，這一步都可以省去，剩下的就是做標準化平臺的分發，只是目前各家硬件接口都不一樣。

媒體：有說法認為卡車賽道沒有 L2、L3 的立足之地，只有終局 L4。卡車車企為什么認可卓馭的 L2/L3 方案？

馬陸：我們去年找卡車車企時，車企一開始也覺得輔助駕駛沒什么用，降不了成本，而且傳統的 ADAS 方案只要兩三千塊，我們的方案動輒過萬。

但車企領導體驗后發現，我們的方案能做到 1000 公里接管一次甚至更低甚至不接管，能顯著降低駕駛員的疲勞感，還能減少事故、降低務工成本，還有自動調速省油的功能，卡車省油 5%-7%，體驗后車企就覺得這個方案有很大用處，只是之前沒人做而已。

媒體：卓馭現在多少人？

馬陸：僅卓馭有1800多人。

媒體：那這1800多人的這個公司，需要跨多少個垂類、場景，多大的裝機量規模？

馬陸：我們當前乘用車定點的車型已經超過 100 款，加上商用車等會更多，今年會有更多合作車型。

卓馭做自動駕駛不想只做 L2，除了早年和大眾合作的雙 TDA4 芯片產品，現在都是 VH 起步，都有高速領航和城市領航，定點的車型幾乎都是高階自動駕駛方案。

7月即將量產世界模型方案

媒體：Robotaxi 賽道有兩個陣營，一個是 Waymo、小馬、文遠這類，依賴世界模型、規則、地圖，追求萬無一失。另一個是特斯拉陣營，從 L2 出發，用多模態大模型提升泛化性，文遠還說 L2 永遠做不成 L4，這個護城河真實存在嗎？

馬陸：現階段他們的護城河一定是存在的。比如 Waymo 內部有先進的端到端方案，但北美跑的車還是用更傳統的方案，因為它現有的 L4 商業模式能持續擴張，公司經營狀況良好，沒有必要顛覆自己的技術。國內小馬的 Robotaxi 在深圳也做得不錯，從商業角度，有可持續擴張的模式，就沒必要冒然更換技術。除非出現新的玩家，比如特斯拉的 FSD 能在中國全面落地，這些公司才會面臨巨大壓力。

L4 不僅是技術問題，還涉及運營、體驗、安全等多個維度，在模型能力足夠好之前，不存在能在任何地方使用的 L4，所以現在公司做 L4 追求萬無一失是必要的，技術只是其中一部分，甚至占比不到一半。

媒體：卓馭相信哪一條？

馬陸：我們是后來者，沒有什么歷史包袱，我們現在走的還是偏大模型的路線。

媒體：這條路線第一個突破的會是特斯拉嗎？

馬陸：很有可能。

媒體：前兩天我們發現這么一件事，一條正常的路，但是它中間有火車通過的鐵軌。這種場景要解決的話，特斯拉和Waymo的方法肯定不一樣，誰能解決的效率更高，肯定是特斯拉嗎？

馬陸：那看你是怎么評價效率了。Waymo 這類用規則的方法，打個補丁就能解決。

特斯拉的數據驅動方法有不同類型，一種是采集鐵軌相關數據解決單一場景，另一種是讓模型擁有更高維的理解能力，像人類一樣，即便沒在駕駛場景見過鐵軌，也能通過互聯網數據、文本數據知道鐵軌的含義并做出應對，這種方法更強大，能應對從沒見過的場景，而要做到這一點，視覺數據預訓練需要結合大量互聯網數據，還要實現和文本的對齊。

媒體：我們這套新系統叫端到端4.0，仍然不叫VLA？

馬陸：端到端 4.0 繼承了去年的一段式端到端技術，強調可解釋性，感知、預測、決策、規劃等環節是可控的，這個技術架構到到 4.0 就很難迭代架構了，剩下的迭代更多是通過數據驅動提升模型能力，因為它已經做到橫向縱向的所有體驗都是數據驅動的。

今年北京車展我們會發布全新的模型架構，這個架構內部不用跑感知模塊，沒有檢測等感知相關玩法，傳感器數據進去，一個模型直接出軌跡，是非常純粹的大模型方案。

媒體：卓馭的端到端 4.0 什么時候會完成歷史使命，被新方案替代？

馬陸：如果一切進展順利，7、8月會把新一代技術范式部署到 8650、8775 等平臺，并實現量產，今年內會推動所有車企切換成新方案，通過軟件推送的方式完成升級。

卓馭的護城河

媒體：國內自動駕駛公司和特斯拉的差距有多大，這個差距會怎么變化，國內梯隊多久能追上？

馬陸：之前看差距大概兩年，2025 年看差距一年，現在看差距大概九個月，差距在持續縮小，但再往下縮小會比較難，因為需要按照大模型的范式持續堆資源。特斯拉不僅 FSD 做得好，還在做大模型和相關訓練機器，多模態的融合做到了極致，這也是它的優勢。

媒體：國內自動駕駛公司之間的競爭很激烈，這種競爭會在什么時間收斂，未來行業格局有什么判斷？

馬陸：行業競爭去年已經有收斂的趨勢，今年會進一步收斂，不超過四五年，一定會有公司做出通用的物理 AI，至少是移動類別的，具備強大的通用移動能力。如果這家公司出現，單純做自動駕駛的公司大概率會被淘汰。

做出這個通用物理 AI 的公司，有可能是互聯網大模型巨頭，它們去年的技術進步非常快，從技術范式角度，它們切入物理 AI 領域有優勢。

媒體：那卓馭的護城河是什么？

馬陸：越是做科技的公司，組織文化、組織效率、運營使命這些看似虛的東西越重要，能讓員工愿意做事、朝著同一個方向努力很關鍵。當下卓馭經過多年深耕，有比較強的軟硬件一體能力、工程能力、產品化能力以及 AI 數據驅動能力。另外到了物理AI 時代，卓馭其實也容易跟上，畢竟我們是機器人出身，比所有競對都更懂機器人。

在新的 AI 時代，我們還需要大力補足 AI 能力，而 AI 時代真正的護城河，一是能持續積累的高質量數據，二是公司內部的基建，三是能持續想出新算法的優秀人才，而算法本身是不斷變化的，很難成為護城河。

媒體：卓馭過去主打低算力硬件平臺的產品，這些積累會不會沒用，甚至后續沒法維護？

馬陸：過去卓馭在低算力平臺做產品，用的是專家系統的思路，通過專家優化在小算力上實現功能，而到了 AI 時代，數據驅動成為主流，思路會發生變化，所以從去年年底開始，我們會更多推 700T、1500T 等大算力的方案。

過去的積累并非沒用，在低算力方案的研發中，卓馭積累了交付能力、硬件能力、外部合作關系和供應鏈能力，這些能力在硬件分發上能發揮很大作用，而且我們多年積累的駕駛數據也是不錯的資產。

媒體：有說法稱卓馭低成本做得很厲害，但只會做低成本，沒有高端的技術壁壘，怎么回應這個說法？

馬陸：倒也沒想反駁。我們的使命愿景是為所有人提供輕松安全的出行體驗，基于這個目標，卓馭想讓更多用戶用上自動駕駛，而中國 70% 以上的車都是 20 萬以內的，所以我們過去想盡一切辦法在低算力、低成本的平臺上做自動駕駛方案，也就給外界留下了只會做低成本的印象。

其實我們是算力優化能力最強的自動駕駛公司，不是做不了最高級別的技術，只是之前沒有把大算力的高端方案拿出來展現，而且行業里存在“營銷厲害就叫技術厲害”的問題，導致了這種謠言。

今年明年，大家會看到我們的大算力方案和更厲害的技術產品，大模型時代的趨勢就是大算力、大參數、大模型，我們也會朝著這個方向走。

最真誠的智能汽車報道

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.