網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

對(duì)談清華教授汪玉：為什么數(shù)據(jù)流架構(gòu)適用智駕芯片？

2026-04-02 23:24:50　來(lái)源: 晚點(diǎn)LatePost

北京舉報(bào)

分享至

“牽頭人能下決心是好事，但得堅(jiān)持住。”

文丨趙宇

編輯丨龔方毅

特斯拉、蔚小理等都在自研芯片，理想是其中唯一用數(shù)據(jù)流架構(gòu)的。這種架構(gòu)概念已誕生 50 多年，學(xué)術(shù)界討論已久，但一直缺乏大規(guī)模商業(yè)化應(yīng)用。

理想汽車 CEO 李想上月底在微博說(shuō)，數(shù)據(jù)流架構(gòu)是一種原生計(jì)算架構(gòu)，代表了通用 AI 計(jì)算架構(gòu)未來(lái)演進(jìn)的趨勢(shì)。當(dāng)時(shí)，這塊芯片的設(shè)計(jì)理念得到學(xué)界背書 —— 解析馬赫 100 芯片數(shù)據(jù)流架構(gòu)的論文，入選計(jì)算機(jī)體系結(jié)構(gòu)領(lǐng)域頂級(jí)會(huì)議 ISCA 2026。

“理想的重要突破在于敢用 VLA （Vision-Language-Action Model，視覺-語(yǔ)言-行動(dòng)模型），并且多跨一步去做數(shù)據(jù)流架構(gòu)。” 清華大學(xué)電子工程系長(zhǎng)聘教授、無(wú)問(wèn)芯穹發(fā)起人汪玉告訴《晚點(diǎn) Auto》。

他還認(rèn)為，數(shù)據(jù)流架構(gòu)的優(yōu)勢(shì)是提升了計(jì)算效率，但代價(jià)是編譯難度更大。不過(guò)由于 AI 可以輔助人類編程，對(duì)于持續(xù)演進(jìn)的智駕模型應(yīng)用，數(shù)據(jù)流架構(gòu)成為一種不錯(cuò)的選擇。

汪玉長(zhǎng)期從事智能芯片、高能效電路與系統(tǒng)相關(guān)研究，主持多項(xiàng)國(guó)家級(jí)以及企業(yè)聯(lián)合項(xiàng)目。2016 年，他將知識(shí)成果入股深度學(xué)習(xí)處理器公司深鑒科技（2018 年被賽靈思收購(gòu)）。2023 年，他推動(dòng)成立 AI 基礎(chǔ)設(shè)施企業(yè)無(wú)問(wèn)芯穹。

近期，我們與汪玉聊了數(shù)據(jù)流架構(gòu)的技術(shù)優(yōu)勢(shì)、局限性，以及車企繞開英偉達(dá) CUDA 生態(tài)自研芯片是否現(xiàn)實(shí)等話題。

以下是我們的交流實(shí)錄，經(jīng)編輯。

數(shù)據(jù)流架構(gòu)的雙面性：計(jì)算效率提升但編譯難度更大

晚點(diǎn)：理想自研芯片馬赫 100 采用數(shù)據(jù)流架構(gòu)，你如何評(píng)價(jià)這條技術(shù)路線的優(yōu)劣勢(shì)？

汪玉：數(shù)據(jù)流架構(gòu)是一個(gè)不錯(cuò)的技術(shù)方向。

簡(jiǎn)單來(lái)說(shuō)，芯片處理計(jì)算的過(guò)程就像做數(shù)學(xué)題，先把兩個(gè)數(shù)相乘，然后相加。把每個(gè)乘法當(dāng)作一個(gè)節(jié)點(diǎn)，結(jié)果傳給下一個(gè)加法器，這樣就形成了一個(gè)巨大的計(jì)算圖。數(shù)據(jù)流架構(gòu)的好處是，數(shù)據(jù)在芯片的處理單元間直接流動(dòng)，不需要反復(fù)讀取外部存儲(chǔ)器。

舉個(gè)例子，要把 500 個(gè)數(shù)加起來(lái)，可以用二叉樹方式——兩兩相加得到 250 個(gè)結(jié)果，再兩兩相加得到 125 個(gè)結(jié)果，依此類推。這就是數(shù)據(jù)流圖。如果用普通 CPU，因?yàn)樗挥幸粋€(gè)計(jì)算單元，就需要不斷地從存儲(chǔ)器里取數(shù)、計(jì)算、存回去，再取下一組數(shù)。如果采用數(shù)據(jù)流架構(gòu)，雖然計(jì)算次數(shù)省不了，但存儲(chǔ)開銷能省很多。

去年云棲大會(huì)理想 CTO 謝炎也提到過(guò)，數(shù)據(jù)流架構(gòu)讓數(shù)據(jù)在處理單元間直接流動(dòng)，減少了反復(fù)訪問(wèn)內(nèi)存的開銷。

然而，數(shù)據(jù)流架構(gòu)的應(yīng)用難點(diǎn)在于，編譯器的代價(jià)會(huì)比較大。不過(guò)，現(xiàn)在 AI 技術(shù)很強(qiáng)大，可以用 AI 來(lái)幫助完成這些映射工作。甚至在設(shè)計(jì)算法時(shí)，就可以讓算法適配底層的計(jì)算架構(gòu)。對(duì)于以 VLA 模型為代表的這類智駕模型應(yīng)用，數(shù)據(jù)流架構(gòu)是一個(gè)不錯(cuò)的選擇。

晚點(diǎn)：Google 的 TPU 芯片是采用數(shù)據(jù)流架構(gòu)嗎？

汪玉：Google 的 TPU 芯片，你要說(shuō)它是數(shù)據(jù)流架構(gòu)也行，因?yàn)楹芏嘈酒軜?gòu)其實(shí)都有不同程度的數(shù)據(jù)流特性。

你可以把整個(gè)巨大的計(jì)算流圖做成一顆固定的芯片，也可以提取出通用的子圖模塊，讓這些模塊都能得到支持，再用它們拼接出更大的計(jì)算流圖。

這就像搭積木，你可以做一個(gè)巨大的固定模型，也可以做很多通用積木塊，然后用這些積木塊組裝出各種形狀。它有各種設(shè)計(jì)方法，讓工程師能在效率和通用性之間找到平衡點(diǎn)。

我從 2012 年開始做 CNN 算法的芯片架構(gòu)研究時(shí)就發(fā)現(xiàn)，要完成同樣功能可以用不同的 AI 模型結(jié)構(gòu)。比如當(dāng)年 VGG、ResNet 等各種不同的網(wǎng)絡(luò)結(jié)構(gòu)都能做人臉識(shí)別。這說(shuō)明如果硬件層面提供了某些計(jì)算模式，軟件算法可以學(xué)會(huì)并適應(yīng)這些模式。關(guān)鍵不是說(shuō)自動(dòng)駕駛或大模型本身會(huì)完全固定，而是算法具有學(xué)習(xí)和適應(yīng)硬件的能力。

晚點(diǎn)：適合 CNN 運(yùn)算的芯片是否天然不適合做 Transformer 運(yùn)算？

汪玉：要看你在哪一級(jí)做抽象。如果你專門做卷積運(yùn)算，但 Transformer 里沒有卷積，就要把矩陣運(yùn)算拆成卷積來(lái)處理，這樣代價(jià)就很高了。現(xiàn)在的 VLA 模型基本上包含了視覺、語(yǔ)言、行動(dòng)三種模式的各種運(yùn)算規(guī)律，而且短期內(nèi)三五年大概率不會(huì)變：

Vision（視覺）部分主要吃算力，需要在一個(gè)較大的輸入特征圖上進(jìn)行大量計(jì)算操作。因此，視覺相關(guān)的處理通常需要專門的卷積運(yùn)算或者視覺編碼器來(lái)提取圖像特征。

Language（語(yǔ)言）部分通常是內(nèi)存密集型任務(wù)，主要瓶頸在于需要大帶寬來(lái)支持大量的數(shù)據(jù)讀寫。數(shù)據(jù)流架構(gòu)在這方面比較合適，能夠有效減少內(nèi)存訪問(wèn)的開銷。

Action（行動(dòng)）部分的計(jì)算模式很不規(guī)律，需要用到的處理器類型相對(duì)多樣。

晚點(diǎn)：特斯拉 2019 年量產(chǎn)的 FSD 智駕芯片沒采用數(shù)據(jù)流架構(gòu)，但說(shuō)是為自動(dòng)駕駛推理做了深度定制，這怎么理解？

汪玉：那時(shí)候還是面向 CNN 算法為主。到現(xiàn)在大模型的時(shí)代，理想一個(gè)比較重要的突破，還是它敢于去用 VLA，這是一個(gè)比較大的變化。然后現(xiàn)在所有芯片對(duì) VLA 模型的支持都一般，傳統(tǒng)芯片支持 CNN 算法的較多。所以理想能把這件事情突破，而且多跨一步去做數(shù)據(jù)流架構(gòu)，膽量挺大的。

架構(gòu)骨架變化進(jìn)入平穩(wěn)期，一代芯片能支持多代算法

晚點(diǎn)：DeepSeek 已經(jīng)證明，用相對(duì)小的算力也能做出性能優(yōu)秀的算法模型，智駕領(lǐng)域能否通過(guò)類似優(yōu)化降低算力需求？

汪玉：這就是軟硬件協(xié)同優(yōu)化。你有什么芯片，就在每一層都做修改。芯片受限就改算法或者軟件。通過(guò)這種垂直打通的優(yōu)化方式，才能產(chǎn)生更好的系統(tǒng)級(jí)效果。

晚點(diǎn)：現(xiàn)在摩爾定律放緩，業(yè)內(nèi)嘗試用其他方式提升芯片性能，比如 Chiplet。你看好 Chiplet 技術(shù)嗎？

汪玉：Chiplet 肯定要做，因?yàn)樗袃蓚€(gè)好處。

第一，單芯片現(xiàn)在不能做得更大了，主要受應(yīng)力限制。一顆芯片大概是固定的幾百平方毫米，12 寸晶圓會(huì)被切成一個(gè)個(gè)芯粒，這個(gè)大小基本已經(jīng)固定。如果想做更大芯片，要用多個(gè)芯粒拼起來(lái)。

第二，可以把不同工藝的芯粒拼在一起。這種搭樂高的方式可以把不同功能單元組合，比如車載領(lǐng)域會(huì)用 CPU、GPU、NPU，還有數(shù)據(jù)流架構(gòu)芯片等，如果用樂高的方式拼裝，其實(shí)會(huì)使得快速迭代變?nèi)菀住?/p>

晚點(diǎn)：在提高智駕芯片算力利用率方面，你有沒有研究成果可以分享？

汪玉：我們從 2015 年就開始發(fā)論文講這個(gè)。一是在完成同樣功能的情況下把模型做小，這樣計(jì)算量、存儲(chǔ)量需求就少了，也就是在同樣算力下計(jì)算速度就會(huì)變快。二是壓縮和量化，就是把模型里每一個(gè)操作需要的比特?cái)?shù)降下去，這樣底層芯片就可以用更高能效的低比特?cái)?shù)單元來(lái)做。

就像在固定面積房間里，能擺 10 張沙發(fā)，但能擺 100 張椅子。椅子就是低比特?cái)?shù)的計(jì)算單元，等效算力變成原來(lái) 10 倍。這是為什么大家都用 FP4、FP8 而不用 FP32 的原因。

還有內(nèi)存調(diào)度機(jī)制。最后都是矩陣向量乘法，怎么讓 100 把椅子每時(shí)刻都坐滿人，利用率就做起來(lái)了。這涉及架構(gòu)設(shè)計(jì)和內(nèi)存優(yōu)化策略。

晚點(diǎn)：從學(xué)術(shù)研究角度看，未來(lái) 3-5 年智駕芯片可能有哪些關(guān)鍵技術(shù)演進(jìn)？尤其是學(xué)術(shù)界能看到，但工業(yè)界還沒落地的。

汪玉：內(nèi)存堆疊可能是必須要做的事。從工藝角度看，Chiplet 解決面積墻問(wèn)題，算力擴(kuò)大靠芯粒拼接。下一個(gè)是存儲(chǔ)墻，怎么把內(nèi)存布置好，快速拿到數(shù)據(jù)。未來(lái)大概率還是要把計(jì)算和存儲(chǔ)放得更近，不管是用 3D 堆疊還是其他方式。

晚點(diǎn)：相比端到端、VLA 這些智駕算法的迭代速度，芯片的研發(fā)周期顯然更長(zhǎng)。這可能造成軟硬件的研發(fā)進(jìn)度不匹配，如何解決這個(gè)問(wèn)題？

汪玉：我現(xiàn)在的感受是 Backbone，就是模型骨架的變化沒那么大。比如 DeepSeek 模型已經(jīng)迭代了幾代，每一代里的關(guān)鍵算子，也就是計(jì)算流圖的差異，并不是很大。

晚點(diǎn)：所以雖然架構(gòu)在變，其實(shí)用的歸根結(jié)底還是 Transformer。

汪玉：或者說(shuō)是變種的 Transformer，然后這些變種 Transformer 架構(gòu)每一代的變化也沒有那么大，因此用編譯器就能解決。所以，一顆芯片支持幾代不同算法應(yīng)該問(wèn)題不大，除非發(fā)生劇烈變化比如不用 Transformer 了。

晚點(diǎn)：有業(yè)界的人說(shuō)，有可能會(huì)出現(xiàn)一種比 Transformer 更優(yōu)的架構(gòu)。

汪玉：學(xué)術(shù)界看到的，至少三年后才到工業(yè)界應(yīng)用，但目前學(xué)術(shù)界還沒看到。2017 年出的 Transformer，2022 年 11 月才被 ChatGPT 真正應(yīng)用，用了 5 年，這已經(jīng)很快。Transformer 真正大規(guī)模商用是現(xiàn)在，所以沒那么快。

車企造芯算得過(guò)來(lái)賬：成本可控，關(guān)鍵在持續(xù)迭代

晚點(diǎn)：理想 2022 年啟動(dòng)自研芯片，當(dāng)時(shí) VLA 和 Transformer 概念還不火，這對(duì)研發(fā)影響大嗎？

汪玉：2022 年開始研發(fā)，真正流片要到 2024 年。在這個(gè)過(guò)程中，理想肯定看到了 Transformer 架構(gòu)的潛力。數(shù)據(jù)流是馬赫 100 很重要的組成部分，但這顆芯片肯定還支持 CNN，包括一些支持向量運(yùn)算的 CPU。

晚點(diǎn)：國(guó)外有廠商把數(shù)據(jù)流架構(gòu)用在云端數(shù)據(jù)中心，但數(shù)據(jù)中心很少做推理。

汪玉：現(xiàn)在推理業(yè)務(wù)已經(jīng)起來(lái)了。Anthropic 三年間收入翻了 1000 倍，證明 Coding 業(yè)務(wù)爆發(fā)。國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏說(shuō)，中國(guó)日均 Token 調(diào)用量已經(jīng)到 140 萬(wàn)億。推理業(yè)務(wù)起來(lái)后，極致定制化的 AI 芯片一定要做，否則每個(gè) Token 的成本降不下去。然后對(duì)于車載來(lái)說(shuō)，其實(shí)不一定是每個(gè) Token 的成本，而是每秒能輸出的 Token 數(shù)上不去。

晚點(diǎn)：如果是每秒的 Token 數(shù)，那瓶頸還挺大。

汪玉：現(xiàn)在的人形機(jī)器人其實(shí)不能非常快速地移動(dòng)，一方面是機(jī)械能力限制，另一方面其實(shí)是指揮控制頻率的問(wèn)題。每次指揮相當(dāng)于輸出 0 或 1，這就是一個(gè) Token。假設(shè)希望每秒能指揮 1000 次，也就是毫秒級(jí)反應(yīng)速度，對(duì)應(yīng)每秒 1000 個(gè) Token。這應(yīng)當(dāng)是端側(cè)追求的極致目標(biāo)。如果是 70 億參數(shù)的模型，需要相當(dāng)大的芯片才能達(dá)到每秒 1000 個(gè) Token 的處理能力。

晚點(diǎn)：每秒 1000 個(gè) Token 是機(jī)器人的要求，智駕現(xiàn)在大概是什么情況？

汪玉：智駕的圖像傳感器幀率一般在 30 幀以上，每一幀圖片一般會(huì)轉(zhuǎn)化數(shù)百個(gè) Token 進(jìn)行處理，在考慮多路攝像頭的情況下，輸入需要處理的 Token 一般在數(shù)千到上萬(wàn)不等。從輸出的角度來(lái)看，輸出底盤的頻率一般在 100 Hz，每一次輸出的動(dòng)作信息一般就十幾個(gè) Token，因此也會(huì)對(duì)應(yīng)每秒近 1000 個(gè) Token 的輸出。

晚點(diǎn)：有業(yè)內(nèi)人士認(rèn)為，汽車?yán)锏目臻g更大，所以智駕芯片對(duì)先進(jìn)制程的需求不如手機(jī)芯片迫切。你怎么看？

汪玉：那倒不會(huì)，因?yàn)槌杀静?1000 塊錢，競(jìng)爭(zhēng)都很激烈。包括散熱也是個(gè)很大問(wèn)題。為什么手機(jī)要用最先進(jìn)的制程？其實(shí)是因?yàn)橥瑯幽芰ο拢冗M(jìn)制程芯片的功耗會(huì)更低，供電和散熱可以做得更簡(jiǎn)單。汽車是一樣的，現(xiàn)在車?yán)锏碾娮酉到y(tǒng)占比大約到 30% 了，跟智駕、娛樂相關(guān)的系統(tǒng)都靠電來(lái)支撐，這塊電量已經(jīng)上去了，所以能耗也是一個(gè)問(wèn)題。

但更重要的是反應(yīng)速度問(wèn)題、實(shí)時(shí)性問(wèn)題、性能問(wèn)題。智駕要支持最好的模型，實(shí)現(xiàn)最快速度、最高能效，至少芯片的性能要足夠好。性能如果想足夠好，提升工藝和內(nèi)存的對(duì)接方式都很重要。只靠芯片本身并不夠。

這是我比較喜歡理想的原因，它可以跟蘋果一樣，把應(yīng)用、軟件、芯片和車一起優(yōu)化。這個(gè)維度做最好的就是蘋果。華為也得這么做，因?yàn)樗幌拗疲仨氉龅綐O致，才能用落后工藝有比較好的表現(xiàn)。我非常贊成這個(gè)邏輯。

晚點(diǎn)：手機(jī)廠商自研芯片時(shí)，前幾代多少都有性能問(wèn)題，理想第一代自研芯片的可用性會(huì)不會(huì)也存在疑問(wèn)？

汪玉：如果要做一家偉大的公司，現(xiàn)在虧得起，牽頭人能下決心是好事，但得堅(jiān)持住。

晚點(diǎn)：特斯拉自研 FSD 芯片后，蔚小理等廠商陸續(xù)開始自研芯片。車企自研智駕芯片的投入產(chǎn)出比能算得過(guò)來(lái)賬嗎？

汪玉：肯定能算過(guò)來(lái)賬，但核心是芯片得能用。如果真做出來(lái)能用、能持續(xù)迭代，第一自主可控，第二成本也降下去了。

晚點(diǎn)：大家之所以用英偉達(dá)芯片，一方面是它的芯片性能好，另一方面它有 CUDA 生態(tài)。國(guó)產(chǎn)廠商自研芯片后不用 CUDA 了，這個(gè)影響大嗎？

汪玉：CUDA 本身支持幾千個(gè)算子，但智駕的計(jì)算維度不需要這么多。以我做大模型的經(jīng)驗(yàn)，VLA 模型估計(jì)就幾百個(gè)算子這個(gè)量級(jí)，所以其實(shí)軟件層面的代價(jià)比原來(lái)小很多。同時(shí)我們現(xiàn)在可以用 AI 寫算子，所以我不覺得 CUDA 會(huì)是很大壁壘。

晚點(diǎn)：“代價(jià)比原來(lái)小很多”，具體指什么？

汪玉：當(dāng)時(shí) CUDA 要支持很多應(yīng)用，包括顯示、游戲、建筑繪圖，甚至天氣仿真等等。而現(xiàn)在只需要支持大模型，所以會(huì)容易很多。

題圖來(lái)源：Gemini

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.