![]()
“牽頭人能下決心是好事,但得堅(jiān)持住。”
文丨趙宇
編輯丨龔方毅
特斯拉、蔚小理等都在自研芯片,理想是其中唯一用數(shù)據(jù)流架構(gòu)的。這種架構(gòu)概念已誕生 50 多年,學(xué)術(shù)界討論已久,但一直缺乏大規(guī)模商業(yè)化應(yīng)用。
理想汽車 CEO 李想上月底在微博說(shuō),數(shù)據(jù)流架構(gòu)是一種原生計(jì)算架構(gòu),代表了通用 AI 計(jì)算架構(gòu)未來(lái)演進(jìn)的趨勢(shì)。當(dāng)時(shí),這塊芯片的設(shè)計(jì)理念得到學(xué)界背書 —— 解析馬赫 100 芯片數(shù)據(jù)流架構(gòu)的論文,入選計(jì)算機(jī)體系結(jié)構(gòu)領(lǐng)域頂級(jí)會(huì)議 ISCA 2026。
“理想的重要突破在于敢用 VLA (Vision-Language-Action Model,視覺-語(yǔ)言-行動(dòng)模型),并且多跨一步去做數(shù)據(jù)流架構(gòu)。” 清華大學(xué)電子工程系長(zhǎng)聘教授、無(wú)問(wèn)芯穹發(fā)起人汪玉告訴《晚點(diǎn) Auto》。
他還認(rèn)為,數(shù)據(jù)流架構(gòu)的優(yōu)勢(shì)是提升了計(jì)算效率,但代價(jià)是編譯難度更大。不過(guò)由于 AI 可以輔助人類編程,對(duì)于持續(xù)演進(jìn)的智駕模型應(yīng)用,數(shù)據(jù)流架構(gòu)成為一種不錯(cuò)的選擇。
汪玉長(zhǎng)期從事智能芯片、高能效電路與系統(tǒng)相關(guān)研究,主持多項(xiàng)國(guó)家級(jí)以及企業(yè)聯(lián)合項(xiàng)目。2016 年,他將知識(shí)成果入股深度學(xué)習(xí)處理器公司深鑒科技(2018 年被賽靈思收購(gòu))。2023 年,他推動(dòng)成立 AI 基礎(chǔ)設(shè)施企業(yè)無(wú)問(wèn)芯穹。
近期,我們與汪玉聊了數(shù)據(jù)流架構(gòu)的技術(shù)優(yōu)勢(shì)、局限性,以及車企繞開英偉達(dá) CUDA 生態(tài)自研芯片是否現(xiàn)實(shí)等話題。
以下是我們的交流實(shí)錄,經(jīng)編輯。
數(shù)據(jù)流架構(gòu)的雙面性:計(jì)算效率提升但編譯難度更大
晚點(diǎn):理想自研芯片馬赫 100 采用數(shù)據(jù)流架構(gòu),你如何評(píng)價(jià)這條技術(shù)路線的優(yōu)劣勢(shì)?
汪玉:數(shù)據(jù)流架構(gòu)是一個(gè)不錯(cuò)的技術(shù)方向。
簡(jiǎn)單來(lái)說(shuō),芯片處理計(jì)算的過(guò)程就像做數(shù)學(xué)題,先把兩個(gè)數(shù)相乘,然后相加。把每個(gè)乘法當(dāng)作一個(gè)節(jié)點(diǎn),結(jié)果傳給下一個(gè)加法器,這樣就形成了一個(gè)巨大的計(jì)算圖。數(shù)據(jù)流架構(gòu)的好處是,數(shù)據(jù)在芯片的處理單元間直接流動(dòng),不需要反復(fù)讀取外部存儲(chǔ)器。
舉個(gè)例子,要把 500 個(gè)數(shù)加起來(lái),可以用二叉樹方式——兩兩相加得到 250 個(gè)結(jié)果,再兩兩相加得到 125 個(gè)結(jié)果,依此類推。這就是數(shù)據(jù)流圖。如果用普通 CPU,因?yàn)樗挥幸粋€(gè)計(jì)算單元,就需要不斷地從存儲(chǔ)器里取數(shù)、計(jì)算、存回去,再取下一組數(shù)。如果采用數(shù)據(jù)流架構(gòu),雖然計(jì)算次數(shù)省不了,但存儲(chǔ)開銷能省很多。
去年云棲大會(huì)理想 CTO 謝炎也提到過(guò),數(shù)據(jù)流架構(gòu)讓數(shù)據(jù)在處理單元間直接流動(dòng),減少了反復(fù)訪問(wèn)內(nèi)存的開銷。
然而,數(shù)據(jù)流架構(gòu)的應(yīng)用難點(diǎn)在于,編譯器的代價(jià)會(huì)比較大。不過(guò),現(xiàn)在 AI 技術(shù)很強(qiáng)大,可以用 AI 來(lái)幫助完成這些映射工作。甚至在設(shè)計(jì)算法時(shí),就可以讓算法適配底層的計(jì)算架構(gòu)。對(duì)于以 VLA 模型為代表的這類智駕模型應(yīng)用,數(shù)據(jù)流架構(gòu)是一個(gè)不錯(cuò)的選擇。
晚點(diǎn):Google 的 TPU 芯片是采用數(shù)據(jù)流架構(gòu)嗎?
汪玉:Google 的 TPU 芯片,你要說(shuō)它是數(shù)據(jù)流架構(gòu)也行,因?yàn)楹芏嘈酒軜?gòu)其實(shí)都有不同程度的數(shù)據(jù)流特性。
你可以把整個(gè)巨大的計(jì)算流圖做成一顆固定的芯片,也可以提取出通用的子圖模塊,讓這些模塊都能得到支持,再用它們拼接出更大的計(jì)算流圖。
這就像搭積木,你可以做一個(gè)巨大的固定模型,也可以做很多通用積木塊,然后用這些積木塊組裝出各種形狀。它有各種設(shè)計(jì)方法,讓工程師能在效率和通用性之間找到平衡點(diǎn)。
我從 2012 年開始做 CNN 算法的芯片架構(gòu)研究時(shí)就發(fā)現(xiàn),要完成同樣功能可以用不同的 AI 模型結(jié)構(gòu)。比如當(dāng)年 VGG、ResNet 等各種不同的網(wǎng)絡(luò)結(jié)構(gòu)都能做人臉識(shí)別。這說(shuō)明如果硬件層面提供了某些計(jì)算模式,軟件算法可以學(xué)會(huì)并適應(yīng)這些模式。關(guān)鍵不是說(shuō)自動(dòng)駕駛或大模型本身會(huì)完全固定,而是算法具有學(xué)習(xí)和適應(yīng)硬件的能力。
晚點(diǎn):適合 CNN 運(yùn)算的芯片是否天然不適合做 Transformer 運(yùn)算?
汪玉:要看你在哪一級(jí)做抽象。如果你專門做卷積運(yùn)算,但 Transformer 里沒有卷積,就要把矩陣運(yùn)算拆成卷積來(lái)處理,這樣代價(jià)就很高了。現(xiàn)在的 VLA 模型基本上包含了視覺、語(yǔ)言、行動(dòng)三種模式的各種運(yùn)算規(guī)律,而且短期內(nèi)三五年大概率不會(huì)變:
Vision(視覺)部分主要吃算力,需要在一個(gè)較大的輸入特征圖上進(jìn)行大量計(jì)算操作。因此,視覺相關(guān)的處理通常需要專門的卷積運(yùn)算或者視覺編碼器來(lái)提取圖像特征。
Language(語(yǔ)言)部分通常是內(nèi)存密集型任務(wù),主要瓶頸在于需要大帶寬來(lái)支持大量的數(shù)據(jù)讀寫。數(shù)據(jù)流架構(gòu)在這方面比較合適,能夠有效減少內(nèi)存訪問(wèn)的開銷。
Action(行動(dòng))部分的計(jì)算模式很不規(guī)律,需要用到的處理器類型相對(duì)多樣。
晚點(diǎn):特斯拉 2019 年量產(chǎn)的 FSD 智駕芯片沒采用數(shù)據(jù)流架構(gòu),但說(shuō)是為自動(dòng)駕駛推理做了深度定制,這怎么理解?
汪玉:那時(shí)候還是面向 CNN 算法為主。到現(xiàn)在大模型的時(shí)代,理想一個(gè)比較重要的突破,還是它敢于去用 VLA,這是一個(gè)比較大的變化。然后現(xiàn)在所有芯片對(duì) VLA 模型的支持都一般,傳統(tǒng)芯片支持 CNN 算法的較多。所以理想能把這件事情突破,而且多跨一步去做數(shù)據(jù)流架構(gòu),膽量挺大的。
架構(gòu)骨架變化進(jìn)入平穩(wěn)期,一代芯片能支持多代算法
晚點(diǎn):DeepSeek 已經(jīng)證明,用相對(duì)小的算力也能做出性能優(yōu)秀的算法模型,智駕領(lǐng)域能否通過(guò)類似優(yōu)化降低算力需求?
汪玉:這就是軟硬件協(xié)同優(yōu)化。你有什么芯片,就在每一層都做修改。芯片受限就改算法或者軟件。通過(guò)這種垂直打通的優(yōu)化方式,才能產(chǎn)生更好的系統(tǒng)級(jí)效果。
晚點(diǎn):現(xiàn)在摩爾定律放緩,業(yè)內(nèi)嘗試用其他方式提升芯片性能,比如 Chiplet。你看好 Chiplet 技術(shù)嗎?
汪玉:Chiplet 肯定要做,因?yàn)樗袃蓚€(gè)好處。
第一,單芯片現(xiàn)在不能做得更大了,主要受應(yīng)力限制。一顆芯片大概是固定的幾百平方毫米,12 寸晶圓會(huì)被切成一個(gè)個(gè)芯粒,這個(gè)大小基本已經(jīng)固定。如果想做更大芯片,要用多個(gè)芯粒拼起來(lái)。
第二,可以把不同工藝的芯粒拼在一起。這種搭樂高的方式可以把不同功能單元組合,比如車載領(lǐng)域會(huì)用 CPU、GPU、NPU,還有數(shù)據(jù)流架構(gòu)芯片等,如果用樂高的方式拼裝,其實(shí)會(huì)使得快速迭代變?nèi)菀住?/p>
晚點(diǎn):在提高智駕芯片算力利用率方面,你有沒有研究成果可以分享?
汪玉:我們從 2015 年就開始發(fā)論文講這個(gè)。一是在完成同樣功能的情況下把模型做小,這樣計(jì)算量、存儲(chǔ)量需求就少了,也就是在同樣算力下計(jì)算速度就會(huì)變快。二是壓縮和量化,就是把模型里每一個(gè)操作需要的比特?cái)?shù)降下去,這樣底層芯片就可以用更高能效的低比特?cái)?shù)單元來(lái)做。
就像在固定面積房間里,能擺 10 張沙發(fā),但能擺 100 張椅子。椅子就是低比特?cái)?shù)的計(jì)算單元,等效算力變成原來(lái) 10 倍。這是為什么大家都用 FP4、FP8 而不用 FP32 的原因。
還有內(nèi)存調(diào)度機(jī)制。最后都是矩陣向量乘法,怎么讓 100 把椅子每時(shí)刻都坐滿人,利用率就做起來(lái)了。這涉及架構(gòu)設(shè)計(jì)和內(nèi)存優(yōu)化策略。
晚點(diǎn):從學(xué)術(shù)研究角度看,未來(lái) 3-5 年智駕芯片可能有哪些關(guān)鍵技術(shù)演進(jìn)?尤其是學(xué)術(shù)界能看到,但工業(yè)界還沒落地的。
汪玉:內(nèi)存堆疊可能是必須要做的事。從工藝角度看,Chiplet 解決面積墻問(wèn)題,算力擴(kuò)大靠芯粒拼接。下一個(gè)是存儲(chǔ)墻,怎么把內(nèi)存布置好,快速拿到數(shù)據(jù)。未來(lái)大概率還是要把計(jì)算和存儲(chǔ)放得更近,不管是用 3D 堆疊還是其他方式。
晚點(diǎn):相比端到端、VLA 這些智駕算法的迭代速度,芯片的研發(fā)周期顯然更長(zhǎng)。這可能造成軟硬件的研發(fā)進(jìn)度不匹配,如何解決這個(gè)問(wèn)題?
汪玉:我現(xiàn)在的感受是 Backbone,就是模型骨架的變化沒那么大。比如 DeepSeek 模型已經(jīng)迭代了幾代,每一代里的關(guān)鍵算子,也就是計(jì)算流圖的差異,并不是很大。
晚點(diǎn):所以雖然架構(gòu)在變,其實(shí)用的歸根結(jié)底還是 Transformer。
汪玉:或者說(shuō)是變種的 Transformer,然后這些變種 Transformer 架構(gòu)每一代的變化也沒有那么大,因此用編譯器就能解決。所以,一顆芯片支持幾代不同算法應(yīng)該問(wèn)題不大,除非發(fā)生劇烈變化比如不用 Transformer 了。
晚點(diǎn):有業(yè)界的人說(shuō),有可能會(huì)出現(xiàn)一種比 Transformer 更優(yōu)的架構(gòu)。
汪玉:學(xué)術(shù)界看到的,至少三年后才到工業(yè)界應(yīng)用,但目前學(xué)術(shù)界還沒看到。2017 年出的 Transformer,2022 年 11 月才被 ChatGPT 真正應(yīng)用,用了 5 年,這已經(jīng)很快。Transformer 真正大規(guī)模商用是現(xiàn)在,所以沒那么快。
車企造芯算得過(guò)來(lái)賬:成本可控,關(guān)鍵在持續(xù)迭代
晚點(diǎn):理想 2022 年啟動(dòng)自研芯片,當(dāng)時(shí) VLA 和 Transformer 概念還不火,這對(duì)研發(fā)影響大嗎?
汪玉:2022 年開始研發(fā),真正流片要到 2024 年。在這個(gè)過(guò)程中,理想肯定看到了 Transformer 架構(gòu)的潛力。數(shù)據(jù)流是馬赫 100 很重要的組成部分,但這顆芯片肯定還支持 CNN,包括一些支持向量運(yùn)算的 CPU。
晚點(diǎn):國(guó)外有廠商把數(shù)據(jù)流架構(gòu)用在云端數(shù)據(jù)中心,但數(shù)據(jù)中心很少做推理。
汪玉:現(xiàn)在推理業(yè)務(wù)已經(jīng)起來(lái)了。Anthropic 三年間收入翻了 1000 倍,證明 Coding 業(yè)務(wù)爆發(fā)。國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏說(shuō),中國(guó)日均 Token 調(diào)用量已經(jīng)到 140 萬(wàn)億。推理業(yè)務(wù)起來(lái)后,極致定制化的 AI 芯片一定要做,否則每個(gè) Token 的成本降不下去。然后對(duì)于車載來(lái)說(shuō),其實(shí)不一定是每個(gè) Token 的成本,而是每秒能輸出的 Token 數(shù)上不去。
晚點(diǎn):如果是每秒的 Token 數(shù),那瓶頸還挺大。
汪玉:現(xiàn)在的人形機(jī)器人其實(shí)不能非常快速地移動(dòng),一方面是機(jī)械能力限制,另一方面其實(shí)是指揮控制頻率的問(wèn)題。每次指揮相當(dāng)于輸出 0 或 1,這就是一個(gè) Token。假設(shè)希望每秒能指揮 1000 次,也就是毫秒級(jí)反應(yīng)速度,對(duì)應(yīng)每秒 1000 個(gè) Token。這應(yīng)當(dāng)是端側(cè)追求的極致目標(biāo)。如果是 70 億參數(shù)的模型,需要相當(dāng)大的芯片才能達(dá)到每秒 1000 個(gè) Token 的處理能力。
晚點(diǎn):每秒 1000 個(gè) Token 是機(jī)器人的要求,智駕現(xiàn)在大概是什么情況?
汪玉:智駕的圖像傳感器幀率一般在 30 幀以上,每一幀圖片一般會(huì)轉(zhuǎn)化數(shù)百個(gè) Token 進(jìn)行處理,在考慮多路攝像頭的情況下,輸入需要處理的 Token 一般在數(shù)千到上萬(wàn)不等。從輸出的角度來(lái)看,輸出底盤的頻率一般在 100 Hz,每一次輸出的動(dòng)作信息一般就十幾個(gè) Token,因此也會(huì)對(duì)應(yīng)每秒近 1000 個(gè) Token 的輸出。
晚點(diǎn):有業(yè)內(nèi)人士認(rèn)為,汽車?yán)锏目臻g更大,所以智駕芯片對(duì)先進(jìn)制程的需求不如手機(jī)芯片迫切。你怎么看?
汪玉:那倒不會(huì),因?yàn)槌杀静?1000 塊錢,競(jìng)爭(zhēng)都很激烈。包括散熱也是個(gè)很大問(wèn)題。為什么手機(jī)要用最先進(jìn)的制程?其實(shí)是因?yàn)橥瑯幽芰ο拢冗M(jìn)制程芯片的功耗會(huì)更低,供電和散熱可以做得更簡(jiǎn)單。汽車是一樣的,現(xiàn)在車?yán)锏碾娮酉到y(tǒng)占比大約到 30% 了,跟智駕、娛樂相關(guān)的系統(tǒng)都靠電來(lái)支撐,這塊電量已經(jīng)上去了,所以能耗也是一個(gè)問(wèn)題。
但更重要的是反應(yīng)速度問(wèn)題、實(shí)時(shí)性問(wèn)題、性能問(wèn)題。智駕要支持最好的模型,實(shí)現(xiàn)最快速度、最高能效,至少芯片的性能要足夠好。性能如果想足夠好,提升工藝和內(nèi)存的對(duì)接方式都很重要。只靠芯片本身并不夠。
這是我比較喜歡理想的原因,它可以跟蘋果一樣,把應(yīng)用、軟件、芯片和車一起優(yōu)化。這個(gè)維度做最好的就是蘋果。華為也得這么做,因?yàn)樗幌拗疲仨氉龅綐O致,才能用落后工藝有比較好的表現(xiàn)。我非常贊成這個(gè)邏輯。
晚點(diǎn):手機(jī)廠商自研芯片時(shí),前幾代多少都有性能問(wèn)題,理想第一代自研芯片的可用性會(huì)不會(huì)也存在疑問(wèn)?
汪玉:如果要做一家偉大的公司,現(xiàn)在虧得起,牽頭人能下決心是好事,但得堅(jiān)持住。
晚點(diǎn):特斯拉自研 FSD 芯片后,蔚小理等廠商陸續(xù)開始自研芯片。車企自研智駕芯片的投入產(chǎn)出比能算得過(guò)來(lái)賬嗎?
汪玉:肯定能算過(guò)來(lái)賬,但核心是芯片得能用。如果真做出來(lái)能用、能持續(xù)迭代,第一自主可控,第二成本也降下去了。
晚點(diǎn):大家之所以用英偉達(dá)芯片,一方面是它的芯片性能好,另一方面它有 CUDA 生態(tài)。國(guó)產(chǎn)廠商自研芯片后不用 CUDA 了,這個(gè)影響大嗎?
汪玉:CUDA 本身支持幾千個(gè)算子,但智駕的計(jì)算維度不需要這么多。以我做大模型的經(jīng)驗(yàn),VLA 模型估計(jì)就幾百個(gè)算子這個(gè)量級(jí),所以其實(shí)軟件層面的代價(jià)比原來(lái)小很多。同時(shí)我們現(xiàn)在可以用 AI 寫算子,所以我不覺得 CUDA 會(huì)是很大壁壘。
晚點(diǎn):“代價(jià)比原來(lái)小很多”,具體指什么?
汪玉:當(dāng)時(shí) CUDA 要支持很多應(yīng)用,包括顯示、游戲、建筑繪圖,甚至天氣仿真等等。而現(xiàn)在只需要支持大模型,所以會(huì)容易很多。
題圖來(lái)源:Gemini
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.