![]()
![]()
AI行業創新的核心就是快,只要比別人快三個月就贏了。通用大模型公司擁有更強的算力、資源與數據優勢,一旦進入物理世界,可能改變行業格局。
作者|王蕊
編輯|西子
卓馭科技 CTO 馬陸,并不急于反駁外界關于“卓馭只會做低成本”的標簽。
在他看來,這個評價某種程度上并不算錯。過去幾年,這家公司確實把大量精力放在一件事情上——如何用更小的算力、更低的成本,讓更多人享受智能輔助駕駛。
但現在,他更關心的是另一件事:當自動駕駛進入大模型時代,一家以工程效率著稱的公司,能否通過算力、數據和分發體系的重構,走出一條不同于行業主流的高階智駕路徑。
馬陸職業生涯的底色是“機器人的眼睛”。從科羅拉多大學博爾德分校計算機系博士畢業,到在大疆創新從 0 到 1 親手構建車載研發體系,這位擁有 14 年經驗、深耕自主移動機器人領域的專家,長期在研究一個問題,如何讓機器理解真實世界。
而在他看來,大模型正在改變自動駕駛行業的競爭方式。
過去,行業比拼的是功能上線速度、感知算法精度和硬件成本;而當數據驅動成為共識、端到端模型不斷擴張之后,競爭開始轉向另一套體系:數據規模、訓練能力、評測系統以及組織效率。
算法依然是塔尖,但基建與評測系統,已成為托起塔尖的基石。
![]()
順著這種技術路徑往下推演,自動駕駛行業正在出現新的問題——商業模式、競爭邊界,以及技術范式本身的變化。
在這次訪談中,馬陸系統談到了自動駕駛、大模型與物理 AI 的關系,并提出了幾個判斷:
AI行業創新的核心就是快,只要比別人快三個月就贏了;
算法本身重要但也沒那么重要,數據、評測、基建、算力(訓練資源)如果跟不上,就算拿到最頂級的算法也沒用。
自動駕駛必須走向原生多模態基礎大模型,語言模態將成為理解復雜環境與實現全球泛化的重要能力;
乘用車自動駕駛模型仍然是一個極端垂類模型,很難真正養活以大模型為載體的物理AI公司;
豐田從100萬臺到1000萬臺花了48年,安卓從1臺到1億臺只用了2.7年,自動駕駛真正的挑戰,不只是技術,而是分發,沒有標準化硬件平臺,再好的技術也難以快速規模化;
自動駕駛最大的潛在競爭對手,可能來自行業之外,通用大模型公司擁有更強的算力、資源與數據優勢,一旦進入物理世界,可能改變行業格局;
未來的競爭,本質上是通用 AI 在真實世界中的能力擴展,自動駕駛只是“沒長手的物理 AI”。
AI時代真正的護城河:一是高質量數據,二是內部內部基建,包括訓練資源,三是優秀人才。組織文化、組織效率、運營使命這些看似虛的東西,反而最重要。
以下根據智車星球與馬陸的訪談內容整理,有刪減。
AI 落地不再是少數人的“數學游戲”
媒體:最近很多公司強調模型能力已經超過人。我最近也聊到一個算法專家,他說極端情況下線上算法可能一個人負責一個模型就行了,算法崗位的人力會不會大幅減少?
馬陸:模型其實分成非常多的環節,真正能做模型架構設計、建模的人是非常少的。比如像 OpenAI 這種公司,真正的拔尖者估計也就幾十個。
在卓馭里面,我們算法團隊可能四五百人,真正對模型做深入改動、提出開創想法的人并不多。更多的人其實是在搞數據挖掘、做數據精細化、做場景數據評測,以及做 AI 基建。
AI 最終落地和傳統想法不一樣了,算法本身重要但也沒那么重要,數據、評測、基建如果跟不上,就算拿到最頂級的算法也沒用。
媒體:目前大模型行業的技術共識是什么?差異點又在哪里?
馬陸:我覺得這個行業已經達成了非常高的共識了,就是數據驅動、要端到端、搞大模型、搞數據、搞評測,其實方案都是一模一樣。
那區別在哪里呢?第一,拼速度,如果一個以AI為核心的公司,他的AI不提升了,那就完蛋了;
拼公司的文化,公司本身對AI這事情的一個包容和一個態度,整個組織是不是很AI原生的組織;
參考語言大模型行業,目前國內、國外都有頂級的大模型企業,這些企業的大模型有各自的擅長、側重場景。消費者對不同的模型在哪些場景更強,哪些場景更弱如數家珍。各個大模型廠商拼的還是迭代速度,以及誰能盡量保持些許領先。
媒體:那質變轉折的關鍵標志是什么?
馬陸:質變的關鍵還是得得有原創性的工作,通俗來說就是得有好點子,以及把它實現,一旦有一個點子成功了,整個行業一兩天內就都會知道。
一方面因為大模型行業相對開放,企業喜歡做開源、發論文;另一方面行業頂尖人才流動很容易,而 AI 行業創新的核心就是快,只要比別人快三個月就贏了,這也促使行業人才和想法都不閉塞。
自動駕駛走向多模態大模型
媒體:如何看待大語言模型(LLM)和世界模型(World Model)兩條技術路線的未來?
馬陸:人類真正想要的大模型是 AGI,是既能做腦力勞動,也能理解世界、做體力勞動的系統。
從 2020、2021 年 ChatGPT 3.0 以來,大語言模型主要做的是腦力勞動,比如語言和文本相關的工作。但語言這個東西畢竟是人類發明的,如果以文本為載體,就只能做文本相關任務,沒辦法做真實世界的事情。
如果要進入真實世界,有一派就認為,要多模態,特別是要以視覺為中心。從世界模型角度看,語言只是一個模態。即使沒有語言,只要能感知世界,也可以通過數據映射出動作。
媒體:有些玩家明確不相信 VLA 或多模態大模型路線,他們認為這條路線未必是正確的,你怎么看?
馬陸:還是要看 VLA 的含義,它每年的定義都不同。如果是問開車的時候是不是得有語言去指導動作,那我們的看法是否定的。但如果 VLA 是指多模態,特別是訓練過程中模態足夠多,提升模型的泛化能力、通用能力,那我們的回答是肯定的。卓馭堅信未來一到三年,行業內公司如果不往原生多模態基礎大模型的方向走,很難走得遠。
媒體:自動駕駛海外泛化的難題,沒有語言模態的話,用強化學習能解決嗎?
馬陸:普通人在海外開車不需要專門泛化幾千公里、上萬公里,核心原因是 人類可以通過閱讀不同國家的交通法,了解不同國家的交規要求,進而讓自己的駕駛行為適配不同國家的法律法規。在這里 語言 模態發揮了關鍵作用,顯著降低了人類在不同國家開車的難度。
媒體:自動駕駛里的世界模型到底是什么?自動駕駛行業當前模型與大語言模型的關鍵差距在哪里?
馬陸:行業確實有很多爭論和說法。我覺得世界模型最起碼是對世界的本質有預測能力,看到一個環境,能對未來做出較準確的預測。而要構建這種預測,模型需要對環境的語義等有較高水平的理解。
如果看現在的自動駕駛行業,會發現它并沒有大模型該具備的一些特征。比如把中國的自動駕駛系統拿到印度、歐洲或者非洲,大概率不能用,要泛化,要重新采集數據。
但大語言模型沒有這個問題,全世界語言都能支持。因為它有更多的數據,是一個通用的大模型。
自動駕駛模型本質上還是一個垂類里的一個非常之垂類的模型。參數上,如果沒有帶語言模態,只是視覺模態,通常情況下連1個B(十億)都到不了。而今天語言大模型沒有700多個B,1100個B,根本就沒人看。這說明大模型這個方向就會越來越大,參數越來越多。
媒體:能不能理解為卓馭相信的是規模越來越大、模態越來越多的一條路線?
馬陸:卓馭相信的是通用的多模態原生大模型這條路線。
媒體:所以這里面必須要有語言模態?
馬陸:我認為 L(語言Language) 是一個很有幫助、很有用的東西,要保證它的通用性,就需要有一個 L。特別是在 訓練階段,L 對于模型的泛化性、通用性有很大的幫助。但我們希望它是一個原生的大模型,而不是拿現有的大模型簡單剪裁。
![]()
媒體:自研一個原生的多模態大模型,有什么要求?
馬陸:這是一個很高的門檻,資源投入是夸張的。
媒體:理想當時說他們一年可能投 20 億,之后每年至少 50 億投入到這個方向。這個判斷你怎么看?
馬陸:我認為理想的說法是對的。就算只是繼續疊端到端的方案,要把模型體驗做好,你要讓模型體驗越來越好,你就要越來越端;越來越端,就要越來越大的模型;模型越大,就需要更多 AI 訓練,訓練費用很容易就突破十個億。
“自動駕駛垂類養活不了AI公司”
媒體:不管是大模型公司還是智能駕駛公司,拼速度意味著領先三個月,這是不是說明研發投入是無底洞,回報又從哪來?最大的挑戰是什么?
馬陸:這個行業確實投入很大,但回報可以參考大模型公司。國內的智譜 AI、Mini Max 等大模型公司市值已經 3000~4000 億港幣,海外對標公司更是千億甚至萬億美金起步。
大模型公司能有高回報,一是跨垂類應用容易,能顛覆大量以文本處理為基礎的職業;二是 AI 分發渠道方便,有手機、電腦就能使用。而自動駕駛產品分發非常困難,因為沒有標準化硬件平臺。
如果沒有快速分發渠道,就算今天做出 L5,從 1 臺到 100 萬臺,需要多少年?豐田從年銷量100萬臺到 年銷量 1000 萬臺花了 48 年。安卓從 1 臺到 1 億臺只用了 2.7 年,所以分發體系非常關鍵。
媒體:端到端這條路線有沒有上限?比如模型大到一定程度之后,能力提升就很小了?
馬陸:從業務視角看,我們為了把自動駕駛這個垂類做好,從規則到半規則,再到數據驅動的端到端,會發現單靠這一個垂類很難養活企業。
語言大模型公司市值高,核心是能跨垂類應用,可以瞬間進入很多行業,因為模型足夠通用。
而單靠輔助駕駛,一套軟件賣給主機廠,一套賣幾千塊,就算一年賣一百萬套,也就是幾十億收入。但訓練端到端模型,一年可能就要花掉10億,更別說訓練基礎模型了。
以數據驅動的自駕模型有一個特點,你要把一個垂類做好,就必須遵循數據驅動,把模型參數搞大,把能力搞強,走著走著,你會發現已經走進了 通用大模型范式了,這是一個客觀規律。
所以模型越做越大之后,就會出現一個選擇:要么死守一個領域,要么跨領域。
所以我們去年宣布做空間智能移動機器人,也做卡車自動駕駛,現在六家頭部重卡客戶基本都拿下了,同時也在做 Robotaxi。我們認為未來一切“可以動的東西”,我們都可以做。
![]()
最危險的對手可能在行業之外
媒體:未來 AI 公司會不會形成數字世界和物理世界兩個陣營?
馬陸:短期內,十年內一定是分開的。但是放長到二三十年,兩個陣營會合并成一個萬能 AI,因為兩者的技術方法本質上是一樣的。
如果問我,最擔心的顛覆者是誰,我覺得也不一定是我們的同行,說不定是大模型公司,比如國內的阿里、字節,國外的 OpenAI 等等。從技術范式角度,它們有算力和投入的優勢,只是現在做的還是那種數字世界的,高價值的產品業務場景,但凡有機會,肯定會跨行的。
媒體:所以與其說是這個賽道的幾個玩家互相賽跑,不如說是自動駕駛跟大模型公司這個陣營在賽跑。
馬陸:18、19年,有很多那種專家垂類模型搞AI醫生,后面這些公司都沒了。去年年底除了個阿里的阿福,也能看病,也挺火爆的。很有意思的一個點是,一個通用的模型公司,可能就一不小心就做出了一個垂類上非常之厲害產品。
媒體:反正垂類就會被顛覆。會不會自動駕駛也是這個命運?
馬陸:不奇怪,自動駕駛本質是解決移動問題,做著做著就會走向通用移動問題,只要遵循數據驅動的方式,就會進入大模型的范式,需要持續加機器、加數據、堆資源,而回報也會很豐厚,能在多個垂類落地。
現在國內某些剛上市不久的大模型公司市值,已經超過了國內所有自動駕駛公司的總和,核心就是通用大模型能解決的問題更多,當下也找不到一個垂類數字 AI 公司能打得過通用模型公司。
算力的成本賬
媒體:自動駕駛公司有自研芯片的必要嗎?
馬陸:這取決于公司的定位、能力和投入,語言大模型公司里有一些做了自研芯片,尤其是訓練芯片的定制化,因為一年芯片采購成本巨大,也有很多公司用公有云服務也做得很好。
那對于卓馭來說,現在我們確實還是用第三方芯片比較多,今年也會找一些優秀的芯片公司,做一些芯片的定制。目前不傾向于自己花大價錢研發芯片,但也不是 100% 排除這個選項,如果自研,會傾向于自研過千TOPS的大算力芯片。
![]()
媒體:我們的VLA得用多大的算力?
馬陸:真正的通用的這個模型至少1000T以上。
媒體:有說法稱小鵬 VIA2.0 的能力得益于自研軟硬件的適配,用第三方芯片的話算法和軟件能力不能發揮到 100%,這個說法成立嗎?
馬陸:對我們來說沒有這個問題。自研芯片要考慮商業邏輯,首先是業務量夠不夠大,攤銷能不能做好,高通、英偉達做車載芯片,是因為手機、服務器、游戲機等主營業務的 IP 能分攤成本,車載業務投入幾乎可以忽略。
如果業務量不大,自研的就是專用芯片,也有市場。另外自研芯片要能帶來技術加持,比如自建 IP 并持續優化,如果做不到,自研芯片更多只是為了避免被卡脖子。
媒體:自動駕駛端測算力的需求會呈現什么樣的上漲趨勢,是算法等算力還是算力等算法?
馬陸:現在數據驅動的范式已經明確了,在這個范式下,對算力的投入是沒有上限的,不吃虧。
前幾年規則時代,堆了算力也可能用不上,而現在數據驅動時代,算法迭代很快,可能當下買的車是幾百 T 算力,過一年自動駕駛能力就跟不上了。
但如果車的算力有 2000T,雖然當下沒完全發揮,但后續公司通過算法迭代、OTA 升級,就能把算力的價值發揮出來。
自動駕駛只是“沒長手的物理 AI”
媒體:現在的具身智能是18年的自動駕駛,還是08年的自動駕駛?
馬陸:可能是18、19年吧,很火的。但是我覺得具身智能客觀上在做物理AI,但是現在很多公司不一定真的在做,他可能只是做個本體,因為做真正可落地的物理AI 太燒錢了。
我覺得自動駕駛往后發展,它也是個物理AI的一個能力分支,它只是沒長手而已。
媒體:所以卓馭什么時候能突破自動駕駛這個賽道,擴展到包括具身智能?
馬陸:已經有內部明確的計劃,應該很快會在一些場合講。當然我們更希望聚焦物理AI的移動能力。
媒體:卓馭做物理 AI 大腦的商業模式是什么?
馬陸:有很多種方式,比如我們昨天公布的一個具身智能客戶,我們給他提供計算平臺。我們希望今年會向更多具身智能公司推這個開發平臺,因為傳感器驅動、底層軟件,我們已經做得非常好了,而且產品是車規級的品質。
媒體:這是不是也說明,現在具身智能賽道的很多公司,是不是沒有大模型能力或優秀的算法能力?
馬陸:有很多具身智能公司在研究大模型的范式,前沿研究不需要太多資源投入,但如果要把技術商業化,一年投三五十億都未必能做出來,而且這只是起步,后續投入會越來越多。
從自動駕駛到更廣泛的移動場景
媒體:自動駕駛各垂直場景里面也有很大區別嗎?比如乘用車做卡車自動駕駛,是不是難度很大?
馬陸:其實只是不了解而已,卓馭一開始也覺得卡車自動駕駛很難,做了之后發現并不難,三五十個人,做一年就能把卡車自動駕駛業務做起來。核心工作就兩類,一是適配硬件接口,這是傳統工作,AI 無法替代;二是讓模型在卡車場景泛化,如果模型足夠通用,這一步都可以省去,剩下的就是做標準化平臺的分發,只是目前各家硬件接口都不一樣。
媒體:有說法認為卡車賽道沒有 L2、L3 的立足之地,只有終局 L4。卡車車企為什么認可卓馭的 L2/L3 方案?
馬陸:我們去年找卡車車企時,車企一開始也覺得輔助駕駛沒什么用,降不了成本,而且傳統的 ADAS 方案只要兩三千塊,我們的方案動輒過萬。
但車企領導體驗后發現,我們的方案能做到 1000 公里接管一次甚至更低甚至不接管,能顯著降低駕駛員的疲勞感,還能減少事故、降低務工成本,還有自動調速省油的功能,卡車省油 5%-7%,體驗后車企就覺得這個方案有很大用處,只是之前沒人做而已。
![]()
媒體:卓馭現在多少人?
馬陸:僅卓馭有1800多人。
媒體:那這1800多人的這個公司,需要跨多少個垂類、場景,多大的裝機量規模?
馬陸:我們當前乘用車定點的車型已經超過 100 款,加上商用車等會更多,今年會有更多合作車型。
卓馭做自動駕駛不想只做 L2,除了早年和大眾合作的雙 TDA4 芯片產品,現在都是 VH 起步,都有高速領航和城市領航,定點的車型幾乎都是高階自動駕駛方案。
7月即將量產世界模型方案
媒體:Robotaxi 賽道有兩個陣營,一個是 Waymo、小馬、文遠這類,依賴世界模型、規則、地圖,追求萬無一失。另一個是特斯拉陣營,從 L2 出發,用多模態大模型提升泛化性,文遠還說 L2 永遠做不成 L4,這個護城河真實存在嗎?
馬陸:現階段他們的護城河一定是存在的。比如 Waymo 內部有先進的端到端方案,但北美跑的車還是用更傳統的方案,因為它現有的 L4 商業模式能持續擴張,公司經營狀況良好,沒有必要顛覆自己的技術。國內小馬的 Robotaxi 在深圳也做得不錯,從商業角度,有可持續擴張的模式,就沒必要冒然更換技術。除非出現新的玩家,比如特斯拉的 FSD 能在中國全面落地,這些公司才會面臨巨大壓力。
L4 不僅是技術問題,還涉及運營、體驗、安全等多個維度,在模型能力足夠好之前,不存在能在任何地方使用的 L4,所以現在公司做 L4 追求萬無一失是必要的,技術只是其中一部分,甚至占比不到一半。
媒體:卓馭相信哪一條?
馬陸:我們是后來者,沒有什么歷史包袱,我們現在走的還是偏大模型的路線。
媒體:這條路線第一個突破的會是特斯拉嗎?
馬陸:很有可能。
媒體:前兩天我們發現這么一件事,一條正常的路,但是它中間有火車通過的鐵軌。這種場景要解決的話,特斯拉和Waymo的方法肯定不一樣,誰能解決的效率更高,肯定是特斯拉嗎?
馬陸:那看你是怎么評價效率了。Waymo 這類用規則的方法,打個補丁就能解決。
特斯拉的數據驅動方法有不同類型,一種是采集鐵軌相關數據解決單一場景,另一種是讓模型擁有更高維的理解能力,像人類一樣,即便沒在駕駛場景見過鐵軌,也能通過互聯網數據、文本數據知道鐵軌的含義并做出應對,這種方法更強大,能應對從沒見過的場景,而要做到這一點,視覺數據預訓練需要結合大量互聯網數據,還要實現和文本的對齊。
媒體:我們這套新系統叫端到端4.0,仍然不叫VLA?
馬陸:端到端 4.0 繼承了去年的一段式端到端技術,強調可解釋性,感知、預測、決策、規劃等環節是可控的,這個技術架構到到 4.0 就很難迭代架構了,剩下的迭代更多是通過數據驅動提升模型能力,因為它已經做到橫向縱向的所有體驗都是數據驅動的。
今年北京車展我們會發布全新的模型架構,這個架構內部不用跑感知模塊,沒有檢測等感知相關玩法,傳感器數據進去,一個模型直接出軌跡,是非常純粹的大模型方案。
媒體:卓馭的端到端 4.0 什么時候會完成歷史使命,被新方案替代?
馬陸:如果一切進展順利,7、8月會把新一代技術范式部署到 8650、8775 等平臺,并實現量產,今年內會推動所有車企切換成新方案,通過軟件推送的方式完成升級。
![]()
卓馭的護城河
媒體:國內自動駕駛公司和特斯拉的差距有多大,這個差距會怎么變化,國內梯隊多久能追上?
馬陸:之前看差距大概兩年,2025 年看差距一年,現在看差距大概九個月,差距在持續縮小,但再往下縮小會比較難,因為需要按照大模型的范式持續堆資源。特斯拉不僅 FSD 做得好,還在做大模型和相關訓練機器,多模態的融合做到了極致,這也是它的優勢。
媒體:國內自動駕駛公司之間的競爭很激烈,這種競爭會在什么時間收斂,未來行業格局有什么判斷?
馬陸:行業競爭去年已經有收斂的趨勢,今年會進一步收斂,不超過四五年,一定會有公司做出通用的物理 AI,至少是移動類別的,具備強大的通用移動能力。如果這家公司出現,單純做自動駕駛的公司大概率會被淘汰。
做出這個通用物理 AI 的公司,有可能是互聯網大模型巨頭,它們去年的技術進步非常快,從技術范式角度,它們切入物理 AI 領域有優勢。
媒體:那卓馭的護城河是什么?
馬陸:越是做科技的公司,組織文化、組織效率、運營使命這些看似虛的東西越重要,能讓員工愿意做事、朝著同一個方向努力很關鍵。當下卓馭經過多年深耕,有比較強的軟硬件一體能力、工程能力、產品化能力 以及 AI 數據驅動能力。另外到了 物理AI 時代,卓馭其實也容易跟上,畢竟我們是 機器人出身,比所有競對都更懂機器人。
在新的 AI 時代,我們還需要大力補足 AI 能力,而 AI 時代真正的護城河,一是能持續積累的高質量數據,二是公司內部的基建,三是能持續想出新算法的優秀人才,而算法本身是不斷變化的,很難成為護城河。
媒體:卓馭過去主打低算力硬件平臺的產品,這些積累會不會沒用,甚至后續沒法維護?
馬陸:過去卓馭在低算力平臺做產品,用的是專家系統的思路,通過專家優化在小算力上實現功能,而到了 AI 時代,數據驅動成為主流,思路會發生變化,所以從去年年底開始,我們會更多推 700T、1500T 等大算力的方案。
過去的積累并非沒用,在低算力方案的研發中,卓馭積累了交付能力、硬件能力、外部合作關系和供應鏈能力,這些能力在硬件分發上能發揮很大作用,而且我們多年積累的駕駛數據也是不錯的資產。
媒體:有說法稱卓馭低成本做得很厲害,但只會做低成本,沒有高端的技術壁壘,怎么回應這個說法?
馬陸:倒也沒想反駁。我們的使命愿景是為所有人提供輕松安全的出行體驗,基于這個目標,卓馭想讓更多用戶用上自動駕駛,而中國 70% 以上的車都是 20 萬以內的,所以我們過去想盡一切辦法在低算力、低成本的平臺上做自動駕駛方案,也就給外界留下了只會做低成本的印象。
其實我們是算力優化能力最強的自動駕駛公司,不是做不了最高級別的技術,只是之前沒有把大算力的高端方案拿出來展現,而且行業里存在“營銷厲害就叫技術厲害”的問題,導致了這種謠言。
今年明年,大家會看到我們的大算力方案和更厲害的技術產品,大模型時代的趨勢就是大算力、大參數、大模型,我們也會朝著這個方向走。
最真誠的智能汽車報道
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.