![]()
文|劉俊宏
編|王一粟
2016年7月,馬斯克終止了特斯拉與智駕芯片供應商Mobileye的合作。
這場分手的背后,是自動駕駛技術(shù)全棧閉環(huán)的理念之爭。特斯拉當時要做技術(shù)全棧閉環(huán),需要掌控數(shù)據(jù)和算法,但Mobileye始終不同意完全開放。談判破裂后,馬斯克下定決心走上軟硬一體的路線。在后來多次財報電話會上,馬斯克感慨,正是這次“自己造芯”的冒險,才讓特斯拉在自動駕駛賽道建立了難以逾越的護城河。
如今,中國的自動駕駛玩家也來到了軟硬一體的階段。
站在2026年這個節(jié)點,我們能看到非常多自動駕駛玩家的自研芯片有了實質(zhì)進展。其中,蔚來神璣芯片和小鵬圖靈芯片已經(jīng)上車,理想的馬赫100芯片也即將隨著全新理想L9亮相。
但在這個過程中,行業(yè)普遍遇到的一個共性問題就是:自研芯片開發(fā)成本極高,軟件適配難度極大。芯片流片一次動輒數(shù)十億,算法團隊還要花數(shù)月時間反復適配、調(diào)優(yōu),稍有不慎就會出現(xiàn)“芯片算力拉滿、實際效能卻打折”的尷尬局面。
如果說自研芯片是自動駕駛行業(yè)的必然趨勢,那如何才能解決高昂成本和軟硬適配的痛點?近日,理想汽車公布了一項研究成果,為智駕軟硬結(jié)合提供了理論支撐。
在過去幾年里,自動駕駛的一條主線是算力競賽。消費者看硬件參數(shù)、車企拼TOPS,大家似乎都相信,更大的算力就能證明智駕能力更強。在發(fā)展的過程中,我們也見證了智駕芯片從英偉達Orin的254 TOPS到Thor的1000 TOPS,再到國產(chǎn)自研芯片的更大算力,數(shù)據(jù)不斷刷新。
但智駕真的百分百適用于Scaling Law嗎?
不完全是這樣。例如當行業(yè)進入VLA(視覺-語言-行動)模型時代之后,自動駕駛就遇到了前所未有的難題。一方面,VLA作為一個邏輯自洽的技術(shù)架構(gòu),需要更高的認知智能才能發(fā)揮實力。它要像人類司機一樣“看懂場景、理解意圖、作出決策”。另一方面,汽車智駕跟云端大模型完全不一樣。車載芯片受限于功耗、散熱、成本、實時性、安全冗余,根本不能盲目堆參數(shù)、堆算力。造成的結(jié)果就是,模型越來越聰明,芯片卻有點“跟不上”。
本次理想提出的“端側(cè)大語言模型的軟硬協(xié)同設(shè)計定律”,就指出了破局的關(guān)鍵。
本次研究,理想回答了兩個核心問題。第一是芯片峰值性能并不等于實際系統(tǒng)效能,芯片的有效算力更重要;第二是通過數(shù)學手段,能構(gòu)建一套可量化、可預測、可落地的數(shù)學框架,讓“算法定義芯片”從空談變成現(xiàn)實。
一句話總結(jié)就是,智駕軟件和硬件能夠找到一個場景最佳的解法。同時,相互合適的硬件和軟件,是能通過協(xié)同設(shè)計的方式來發(fā)現(xiàn)的。
基于這項研究結(jié)果,理想準備在全新理想L9落地自研的馬赫100芯片,挑戰(zhàn)汽車智能的上限。
那么,理想發(fā)現(xiàn)的軟硬協(xié)同設(shè)計定律到底講了什么?到底想要解決行業(yè)的什么痛點?我們一起來看這項研究。
算法和芯片,需要“商量著”一起長大
過去幾年里,英偉達計算平臺幾乎是汽車高階智駕的標配。但隨著智駕技術(shù)發(fā)展,英偉達的對手越來越多。車企這邊,選擇自研芯片的有理想、小鵬、蔚來等廠商。芯片廠商這邊,AMD、高通近幾年也加入“戰(zhàn)場”,共同分食英偉達的“蛋糕”。
為什么汽車廠商要選擇更換計算平臺?這場變革的背后,是自動駕駛技術(shù)撞上了兩堵硬墻。
第一堵墻是大模型進化極快,芯片迭代卻相對緩慢,導致硬件迭代速度有點跟不上了。在VLA逐漸成為主流技術(shù)范式的當下,智駕模型的參數(shù)規(guī)模、訓練數(shù)據(jù)、能力邊界幾乎每幾個月就刷新一次,而車規(guī)級芯片從設(shè)計到流片、驗證、上車,往往需要3-5年時間。對于這些新的模型需求,不少新計算平臺開始強調(diào)對MoE稀疏計算有原生支持、提供KV緩存超大容量,或能實現(xiàn)動態(tài)資源調(diào)度。種種跡象,意味著過去“公認”的計算平臺已經(jīng)越來越難以滿足VLA時代的性能需求。
另一堵墻則是,自動駕駛行業(yè)發(fā)現(xiàn)通用計算平臺不能完全發(fā)揮模型能力上限。智駕模型需要芯片具備特定參數(shù)的性能,而這恰恰是通用計算平臺難以滿足的。例如智駕模型做決策時,需要大量MoE調(diào)用能力,但通用計算平臺缺乏對稀疏計算原生支持,也缺乏對量化的原生支持。智駕保障行車安全需要低延遲反饋,但通用計算平臺會“相互卡任務(wù)”不能保障輸出穩(wěn)定。這導致算法適配最終只能“削足適履”,要么犧牲模型精度,要么犧牲實時響應,或者增加冗余芯片導致成本飆升。
為了解決這兩項難題,理想在這篇論文中認為——軟硬件協(xié)同設(shè)計是破局的關(guān)鍵。
![]()
具體來說,理想用了兩個核心數(shù)學手段來實現(xiàn)這一協(xié)同。
第一個是用損失函數(shù)擴展法則的車載化應用,用低成本“算出”模型能力上限。這其實是行業(yè)大模型研發(fā)比較普遍的流程。基本原理是大模型本身有一個“錯誤率”,模型越小“錯誤率”越大,但“錯誤率”的增長曲線可以預測。這就意味著只要給定模型超參(參數(shù)量、層數(shù)、FFN倍數(shù)等),就能無需完整訓練,直接預測最終精度。
簡單來說,就是只要用小模型跑幾次就能算出“大模型大概能聰明到什么程度”,從而省下天價的GPU電費和時間。
![]()
另一個手段是Roofline性能建模的車載化革新,“計算出”模型所需的關(guān)鍵硬件參數(shù)。Roofline本來是用于HPC(高性能計算)的可視化性能分析框架,用于定量評估應用程序處理器上的瓶頸。理想針對車載場景進行了擴展,在考慮傳統(tǒng)計算與內(nèi)存帶寬平衡之外,首次添加了智駕所需的KV緩存(可理解為關(guān)鍵信息緩存)、MoE路由(可以理解為分配專家模型運行的機制)、注意力機制等大模型特有需求,來計算模型對智駕計算平臺的影響。
簡單來說,就是“算出”計算平臺能支持的模型“聰明程度”。
![]()
在此基礎(chǔ)上,結(jié)合上述兩個式子就誕生了PLAS(帕累托最優(yōu)LLM架構(gòu)搜索)框架,從而實現(xiàn)了協(xié)同設(shè)計。在公式中,只需要輸入芯片的算力、帶寬、緩存層次,以及工程約束(例如延遲<100ms、功耗、內(nèi)存),自動生成最優(yōu)的模型架構(gòu)方案——找到“在當前硬件上,精度最高、延遲最低的那條邊界”。簡單來說,就是能同時找到算法能力和芯片設(shè)計的共同最優(yōu)解。
![]()
同時,理想還給出了不同硬件平臺(Jetson Orin/Thor)上的帕累托最優(yōu)前沿,驗證了“硬件協(xié)同設(shè)計擴展定律”的跨硬件平臺泛化性,找到了英偉達計算平臺的能力上限。
![]()
這種設(shè)計模式最大的價值就是讓此前行業(yè)“先設(shè)計芯片再適配算法”或“先開發(fā)算法再找芯片”的割裂流程徹底成為歷史。
“本來Orin芯片是不支持跑語言模型的。但因為英偉達沒時間,所以我們自己寫了底層推理引擎”。理想創(chuàng)始人兼CEO李想在一次采訪中稱。
傳統(tǒng)的流程,一邊是芯片工程師在拼命追求算力更強,一邊是算法工程師在拼命追求模型更智能,但兩者對接時才發(fā)現(xiàn)“不兼容”,造成大量資源浪費。協(xié)同設(shè)計就是要打破隔閡,讓芯片和算法從一開始就緊密配合,讓算法和芯片從一開始就“商量著”一起長大。
對于自動駕駛行業(yè)準備走軟硬一體路線的玩家來說,理想的研究無疑向行業(yè)交了一把可復制的鑰匙。
沒有通用芯片,只有場景最優(yōu)芯片
理想關(guān)于協(xié)同設(shè)計的數(shù)學計算過程并不困難。但在AI時代,一個好問題的價值,要遠勝于無數(shù)淺薄的信息。
為什么理想要進行協(xié)同設(shè)計的研究?因為它很早就碰上了自動駕駛技術(shù)落地的難題。
“在車載芯片上部署VLM面臨巨大挑戰(zhàn),尤其是在主流的 Orin-X 芯片上,該芯片在設(shè)計之初并未考慮大模型的應用需求。因此,我們在部署過程中需克服諸多工程難題。”
正如理想汽車基座模型負責人詹錕在2024年所說。早在英偉達Orin芯片落地高階智駕的時期,理想就深刻體會到“軟硬割裂”的痛苦。平心而論,英偉達計算平臺確實提供了強大的理論算力,但在實際部署大語言模型時,理想的技術(shù)團隊常發(fā)現(xiàn)“芯片峰值性能≠實際系統(tǒng)效能”的困境。
精心設(shè)計的模型架構(gòu)往往無法充分利用硬件特性,而為了硬件適配做出的妥協(xié)又可能損害模型智能。這簡直就像是一尊精致的雕像,只能以殘缺的狀態(tài)展示給觀眾。這種割裂感讓理想下定決心,必須從根本上解決。
解決的思路,是理想決定從提升模型性能入手,同時試圖找到兼顧模型落地的時間、硬件和應用成本的答案。具體目標包括:把模型設(shè)計和選擇的周期從數(shù)月壓縮至一周;無需盲目使用更貴的芯片,也能為用戶帶來更好的智能體驗;根據(jù)應用場景,快速選出最適合的模型配置,整體縮短開發(fā)周期。
根據(jù)這項研究,理想將上述目標提煉成了6個核心結(jié)論。每一條都直指車載大模型部署的痛點,并將自研芯片提到了勢在必行的高度。
首先,稀疏計算將成為車載AI標配。在車載典型的批處理大小為1的場景下,MoE稀疏架構(gòu)100%主導效率前沿。這意味著未來車載芯片需要原生支持稀疏計算和動態(tài)路由,而非簡單提供密集矩陣乘算力。簡單來說,車載AI模型的發(fā)展方向跟云端“大而全”不一樣,計算平臺需要原生支持“專且精”的架構(gòu)。
其次,內(nèi)存子系統(tǒng)設(shè)計比算力峰值更重要。論文指出“寬而淺”的最優(yōu)架構(gòu)形態(tài)表明,內(nèi)存帶寬和緩存效率往往比理論TOPS更能決定系統(tǒng)實際性能。這意味著芯片內(nèi)存層次設(shè)計要隨需求變化,例如專門為KV緩存和注意力機制預留足夠的高速緩存空間。
第三,階段感知的微架構(gòu)優(yōu)化。在模型運作過程中,Prefill(預填充)和Decode(解碼)階段對硬件資源的需求截然不同,Prefill需要大量并行算力單元,猛猛計算;而Decode階段需要大量內(nèi)存帶寬和空間,算力反而閑置。在常規(guī)GPU設(shè)計里,這些計算流程通常都是固定的,但汽車智駕需要兼顧實時性和確定性。這代表新的芯片需要支持動態(tài)的微架構(gòu)重構(gòu)或資源分配,以保障兩個階段的計算都能穩(wěn)定輸出。
第四,打破4倍FFN(前饋網(wǎng)絡(luò))的固定模式。傳統(tǒng)Transformer架構(gòu)一般默認是4倍FFN擴展比,就像是個放大鏡,不管輸入多復雜都要先把維度擴大4倍,算完再壓縮回去。但車載場景下,運算資源相對有限,“火力全開就代表著油耗爆炸”。這意味著芯片的矩陣乘單元和激活函數(shù)單元需要更靈活的配比,才能適配VLA模型的實際負載分布。
第五,量化加速需要硬件原生支持。為了保證智駕輸出的實時性、安全性和功耗要求,理論上智駕模型從FP16或BF16權(quán)重量化到INT8量化的加速因子為2倍。但根據(jù)理想實際測試,使用常規(guī)平臺的加速效果只有1.3-1.6倍。這是因為在換算過程中,非線性算子和精度轉(zhuǎn)換都會占用資源,這意味著大量運算資源被浪費。所以,下一代芯片需要在指令集和運算單元層面提供混合精度計算和算子融合的原生支持。
第六,沒有通用芯片,只有場景最優(yōu)芯片。綜合上述結(jié)論看到,要想最大化模型能力就必須要重新調(diào)整硬件計算架構(gòu),這從根本上證明了“算法定義芯片”的必要。只有深度理解上層算法需求,才能設(shè)計出最高效的專用計算架構(gòu)。
這些發(fā)現(xiàn),并不是紙上談兵。為了驗證協(xié)同設(shè)計定律,理想在英偉達Jetson Orin/Thor平臺上做了嚴格對比測試。結(jié)果顯示,應用協(xié)同設(shè)計定律優(yōu)化的模型,在與Qwen2.5-0.5B保持完全相同延遲的前提下,實現(xiàn)了19.42%的精度提升。這直接證明了軟硬協(xié)同設(shè)計可以實現(xiàn)“同等硬件、更優(yōu)性能”,能立刻帶來可量化的工程收益。
![]()
對于產(chǎn)品側(cè)來說,這一發(fā)現(xiàn)也直接促成理想自研馬赫100芯片。作為馬赫100首發(fā)搭載的全新理想L9,李想更是在微博中宣稱,其3倍于英偉達Thor-U芯片的有效算力,是全球最強的智駕大腦。
擁有了自研芯片,不僅意味著理想從“被動適配芯片”轉(zhuǎn)到“算法定義芯片”的階段。更是為中國自動駕駛廠商在VLA時代提供了可以“開箱即用”的理論武器。
李想的AI工程方法論
軟硬結(jié)合、協(xié)同開發(fā),早就是全球每一個AI巨頭的必修課。
2013年,時任Google Brain負責人的Jeff Dean隨手拿了一張餐巾紙做了一項計算。結(jié)果顯示,為了支撐用戶使用語音識別模型,谷歌需要把數(shù)據(jù)中心集群再擴建一倍。簡單幾個數(shù)字,讓在場的所有高管冷汗直流。
為了避免這場危機,谷歌當機立斷啟動TPU研發(fā)項目。定義硬件的方式,是根據(jù)一篇老論文,將芯片設(shè)計成匹配算法需要的矩陣運算。15個月后,谷歌做出了TPU,從此不再被GPU“綁架”。如今,通過谷歌云和Gemini,谷歌將TPU賣到了全世界。
谷歌用實際行動證明,只有軟硬協(xié)同,才能把每一分算力都用在刀刃上。理想在這條路上,也找到了輔助駕駛?cè)珬<夹g(shù)閉環(huán)的方向。
還記得在2025年時,智駕技術(shù)領(lǐng)先的玩家還在參考DeepSeek的技術(shù),用蒸餾的手段讓AI大模型從“云端大模型下車”。理想當時針對智駕大模型做了一系列預訓練、后訓練和強化訓練的調(diào)整,才拿出了對標人類智能的“司機大模型”——VLA。
“我們對Deepseek R1從上線到后面開源都做了相當多的研究和擁抱。DeepSeek的速度比想象中快,所以VLA到來的速度也比想象中快。”李想曾如此總結(jié)說。
如今,在完成軟硬一體之后,為車端量身定制的“算法原生模型”能讓智駕實現(xiàn)感知、決策、規(guī)劃、控制全鏈路都在同一套數(shù)學框架下優(yōu)化,進一步刷新了整個系統(tǒng)的延遲、精度和能效。
這種轉(zhuǎn)變,本質(zhì)上是AI工程能力的進化。過去還需要工程師根據(jù)經(jīng)驗調(diào)優(yōu)、不斷試錯迭代,現(xiàn)在靠PLAS框架和數(shù)學定律,最優(yōu)方案已經(jīng)能實現(xiàn)“一鍵生成”。
“任何時候當我們想去改變和提升能力,第一步一定是搞研究,第二步是研發(fā),第三步是把能力表達出來,第四步是能力變成業(yè)務(wù)的價值。”李想說。
理想為了實現(xiàn)這一目標,下了相當多的苦功夫。
在基礎(chǔ)研究層面,理想的投入可謂是“豪橫”。近8年來,理想一直在加大研發(fā)投入。光是2025一年,理想預計研發(fā)投入達到120億元,其中人工智能領(lǐng)域投入達到60億元。
隨著研發(fā)投入,我們也能清晰看到理想自動駕駛技術(shù)的成長足跡。自2021年至2025年11月,理想圍繞BEV(Bird's-eye-view,鳥瞰圖)、端到端模型、VLM視覺語言模型、VLA視覺語言行動模型、強化學習、世界模型、AI基座模型等領(lǐng)域,發(fā)表近50篇論文,被引用超過2500次。其中,32篇論文中稿頂會。
在基礎(chǔ)研究中,理想的組織架構(gòu)也在朝著更適合AI研究的方向演進。在今年1月,理想就率先進行了一系列組織調(diào)整。其中,理想汽車自動駕駛高級算法專家詹錕接手基座模型業(yè)務(wù),整體負責理想的VLA基座模型研發(fā),并將相關(guān)技術(shù)研發(fā)團隊充分整合。這代表理想的智駕全面進入AI大模型時代。
1月底,李想在內(nèi)部還明確說,將大幅調(diào)整技術(shù)研發(fā)團隊架構(gòu),參照最先進AI公司的運作模式,按照協(xié)作構(gòu)建硅基生命的方式重新設(shè)定人員分工。通過持續(xù)優(yōu)化內(nèi)部架構(gòu)的方式,理想希望公司的算法、芯片、OS團隊實現(xiàn)深度協(xié)同,讓研究成果能以最快速度轉(zhuǎn)化為量產(chǎn)能力。
也正是基于對AI的理解,李想也成了汽車圈“最擁護”AI發(fā)展的CEO。近日,李想還在朋友圈明確感慨,學會使用Agent能放大頂級專家和普通人之間的差距。
![]()
或許,AI時代最重要的法則就是ALL in AI。
曾經(jīng)領(lǐng)先全球的特斯拉FSD(特斯拉自動駕駛),在中國自動駕駛廠商技術(shù)全棧閉環(huán)的追趕下,逐漸不再“驚艷”。
軟硬協(xié)同設(shè)計定律只是一個開始,中國智能汽車廠商們正在定義汽車智能的上限。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.