當大模型開始從云端走向手機、汽車等終端設備,一個此前被高速發(fā)展掩蓋的矛盾正逐漸浮出水面,芯片算力在不斷膨脹,算法團隊在瘋狂擴參數(shù),但這兩樣東西湊在一起時,實際效能卻大打折扣。一臺搭載了頂級芯片的車,理論算力充足,真跑起來卻發(fā)現(xiàn)芯片在“等數(shù)據(jù)”,算法在“等資源”,彼此空轉(zhuǎn)。這種“軟硬割裂”帶來的效率損耗,讓延續(xù)多年的“堆料”模式走到了盡頭,正在成為AI進一步落地的隱形路障。
近日,理想汽車聯(lián)合國創(chuàng)決策智能技術(shù)研究所,對外公布了端側(cè)大模型“軟硬協(xié)同設計定律”。這并非一款新的產(chǎn)品功能,而是一套試圖從數(shù)學底層重新定義芯片與算法關系的理論框架。
![]()
“暴力堆算力”正在面臨物理極限
在智能輔助駕駛邁向更高階的階段,行業(yè)正面臨一個核心悖論。以大語言模型為基礎的視覺-語言-行動(VLA)模型,確實需要更強的認知能力;但車載環(huán)境對功耗、散熱和成本的嚴苛要求,決定了車企不可能為了算力無限堆砌硬件。換言之,競爭的制高點正在從“誰的芯片算力更強”轉(zhuǎn)向“誰的真實效率更高”。
英偉達、蘋果、微軟、谷歌等全球科技巨頭早已關注到這一挑戰(zhàn),軟硬件之間的“協(xié)同設計”(Co-design)正在成為行業(yè)共同探索的研發(fā)范式。
理想的研發(fā)團隊在實際部署中感知到了這種“軟硬割裂”。在上一代英偉達Orin/Thor這類車載平臺上,他們也發(fā)現(xiàn)一個普遍現(xiàn)象:芯片的理論峰值性能很強大,但實際部署大模型時,精心設計的模型架構(gòu)往往無法完全調(diào)用硬件特性,而為了適配硬件做出的調(diào)整,又可能折損模型的智能表現(xiàn)。這種“芯片峰值性能≠實際系統(tǒng)效能”的困境,指向了一個深層次問題,芯片遵循摩爾定律線性增長,算法則是指數(shù)級擴張,兩者的演進節(jié)奏產(chǎn)生錯位。
![]()
把軟硬協(xié)同從理念變成數(shù)學表達范式
為了解決這一錯位,理想汽車基座模型MindVLA團隊與國創(chuàng)決策智能技術(shù)研究所聯(lián)合研發(fā)的“硬件協(xié)同設計擴展定律”,首次嘗試將這種復雜的協(xié)同關系轉(zhuǎn)化為一套可量化、可預測的數(shù)學框架。
這套框架的核心思路在于“建模”。團隊通過訓練170個不同架構(gòu)的模型、評估近2000個候選配置,將Transformer架構(gòu)的精度表現(xiàn)與模型架構(gòu)進行了多項式擬合,找到了潛在表達式。同時,他們將計算機體系結(jié)構(gòu)領域的經(jīng)典Roofline模型引入車載場景,系統(tǒng)建模了KV緩存、MoE路由、注意力機制等大模型特有負載對芯片內(nèi)存子系統(tǒng)的影響。
基于這兩大建模,團隊開發(fā)了PLAS(帕累托最優(yōu)LLM架構(gòu)搜索)框架。這一框架的作用是給定芯片的硬件參數(shù)(算力、帶寬、緩存)和工程約束(延遲、功耗),自動生成最優(yōu)的模型架構(gòu)方案。
這套數(shù)學工具的落地效果是直接的。以往升級芯片或更新模型時,研發(fā)團隊需要耗費數(shù)月進行模型選型和適配;而依據(jù)這一定律,模型設計和選型周期理論上可以縮短至一周以內(nèi)。更重要的是,它證明了智能的提升不必綁定算力的線性增長,通過軟硬件的深度協(xié)同,同樣可以實現(xiàn)系統(tǒng)能效的跨越式提升。
![]()
破解芯片設計的“黑盒”,六大發(fā)現(xiàn)改寫游戲規(guī)則
這套數(shù)學框架在實際研發(fā)中沉淀出的結(jié)論,正在反向定義下一代芯片的模樣。研究團隊發(fā)現(xiàn),未來的車載智能芯片不能再一味追求理論算力的攀升,而必須重新審視架構(gòu)設計的底層邏輯。稀疏計算將成為車載場景的標配,大模型在推理時不需要激活所有參數(shù),芯片必須學會“挑著算”,只調(diào)用必要的神經(jīng)元;同時,內(nèi)存帶寬和緩存效率往往比單純的算力TOPS數(shù)字更能決定實際性能。此外,大模型在理解指令和生成答案兩個階段對硬件資源的需求截然不同,這意味著芯片需要具備“動態(tài)變臉”的能力,在不同階段靈活調(diào)配算力。
另一方面,一些延續(xù)多年的傳統(tǒng)設計慣例正在被打破。Transformer架構(gòu)中固定的4倍擴展比在車載場景下被證明是低效的,芯片的運算單元配比需要更靈活的方案。INT8量化理論上能帶來2倍加速,實際卻只能實現(xiàn)1.3到1.6倍,問題出在非線性算子和精度轉(zhuǎn)換的開銷上,下一代芯片必須在指令集和運算單元層面原生支持混合精度計算和算子融合。這些發(fā)現(xiàn)表明沒有通用的萬能芯片,只有針對特定算法場景深度優(yōu)化的專屬芯片。算法定義芯片,正在從一句口號變成硬性的設計準則。
![]()
從理論到量產(chǎn),一套公式背后的硬核家底
端側(cè)大模型“軟硬協(xié)同設計定律”的發(fā)布,對理想汽車而言,不僅是一篇學術(shù)成果的總結(jié),更體現(xiàn)其在智能輔助駕駛技術(shù)棧上層應用到底層芯片的完整閉環(huán)。而支撐這一閉環(huán)的,是近8年累計近500億元的研發(fā)投入——這個數(shù)字在新勢力車企中穩(wěn)居前列。僅2025年一年,理想的研發(fā)投入預計就達到120億元,其中約60億元流向了人工智能領域。
真金白銀的投入換來了扎實的學術(shù)積累。從2021年至今,理想圍繞BEV、端到端、VLA、世界模型等前沿方向,累計發(fā)表了近50篇論文,被學術(shù)界引用超過2500次,其中32篇登上了頂級學術(shù)會議的舞臺。這種“研究驅(qū)動研發(fā)”的模式,讓理想從用戶需求的響應者,逐漸轉(zhuǎn)變?yōu)榧夹g(shù)規(guī)則的參與制定者。
而這套理論最直接的工程產(chǎn)物,就是理想自研的智能輔助駕駛芯片“馬赫100”。這款采用5納米制程的車規(guī)級芯片,正是“軟硬協(xié)同設計定律”從紙面走向現(xiàn)實的第一次完整驗證。它將首次搭載于全新一代理想L9(參數(shù)丨圖片)之上,兩顆馬赫100組成的雙芯片系統(tǒng),總算力達到2560TOPS,但更關鍵的是其“有效算力”,單顆馬赫100的有效算力是英偉達Thor-U芯片的3倍。
![]()
正如理想汽車董事長兼CEO李想在此前的AI Talk中所言:“任何時候當我們想去改變和提升能力,第一步一定是搞研究”。當行業(yè)還在比拼誰家的芯片“看起來更猛”時,理想汽車已經(jīng)開始用一套數(shù)學公式,把智能輔助駕駛的競爭從“堆料游戲”拉回了“效率戰(zhàn)爭”。這一定律的發(fā)表和應用,也展現(xiàn)出以理想為代表的中國企業(yè)正在從產(chǎn)品創(chuàng)新的“跟隨者”向技術(shù)標準的“定義者”轉(zhuǎn)變,成為全球AI浪潮中的硬核玩家與行業(yè)領航者。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.