公眾號(hào)記得加星標(biāo)??,第一時(shí)間看推送不會(huì)錯(cuò)過。
多年以后,2025年圣誕節(jié)這一天,會(huì)載入全球AI算力芯片產(chǎn)業(yè)發(fā)展史。
12月25日凌晨,英偉達(dá)和Groq宣布達(dá)成“非排他性授權(quán)協(xié)議”,以200億美元(約合1400億元)現(xiàn)金價(jià)格購買一家“非GPU”架構(gòu)企業(yè)的技術(shù)授權(quán)。
這場交易是英偉達(dá)有史以來規(guī)模最大的一筆“投資”,該公司將現(xiàn)金和短期持有資本606億美元的三分之一都給了這家公司,超出該公司此前估值的3倍,可見其必須拿下該項(xiàng)技術(shù)的決心。
這一激進(jìn)動(dòng)作背后,與近期谷歌TPU等“非GPU架構(gòu)”的風(fēng)頭正勁密切相關(guān)。英偉達(dá)收購的這家芯片公司Groq的創(chuàng)始人兼CEO,正是谷歌“TPU芯片”締造者——喬納森·羅斯(Jonathan Ross),收購后喬納森及Groq的核心技術(shù)成員也將集體加盟英偉達(dá)。
值得注意的是,Groq主攻的也并非谷歌TPU同款架構(gòu),而是獨(dú)創(chuàng)的LPU——軟件定義硬件的可重構(gòu)數(shù)據(jù)流架構(gòu),消除了內(nèi)存帶寬的瓶頸。這種設(shè)計(jì)讓LPU在處理大語言模型時(shí),能實(shí)現(xiàn)每秒數(shù)百個(gè)Token的“瞬時(shí)”吐字,這是TPU和傳統(tǒng)GPU無法企及的物理極限。這一技術(shù)也被業(yè)界及媒體譽(yù)為“高階TPU”。甚至一些業(yè)內(nèi)人士表示,對(duì)于推理環(huán)節(jié)而言,Groq的可重構(gòu)數(shù)據(jù)流可能是最好的技術(shù)路徑選擇,沒有之一。
![]()
英偉達(dá)CEO黃仁勛(Jensen Huang)年初曾表示,他認(rèn)為AI推理需求將增長百倍。而英偉達(dá)在歲末這個(gè)時(shí)點(diǎn)“強(qiáng)勢(shì)收編”推理優(yōu)化的低延遲芯片制造商Groq,或許已經(jīng)承認(rèn)了GPU并非AI推理工作的理想選擇,更對(duì)外印證了非GPU架構(gòu)在 AI 算力時(shí)代的重要性正日益凸顯。
讓模型性能暴漲40倍,新架構(gòu)超越GPU
事實(shí)上,AI 大模型熱潮引發(fā)了算力需求暴漲。從文本生成、AI 圖像創(chuàng)作到 AI 視頻合成,從大規(guī)模模型訓(xùn)練到高復(fù)雜度推理任務(wù),大模型展現(xiàn)出令人驚嘆的能力,這也讓AI算力芯片在其中發(fā)揮關(guān)鍵作用。
隨著AI應(yīng)用場景豐富、任務(wù)日趨復(fù)雜,AI 芯片賽道早已告別零散玩家試水的階段,形成了兩大涇渭分明的技術(shù)流派:一派是以 GPU 為代表的共享式集中計(jì)算派(簡稱 GPU 派);另一派則是以ASIC(谷歌 TPU)、可重構(gòu)數(shù)據(jù)流芯片(Groq LPU)為代表的非GPU派。
在這個(gè)風(fēng)云際會(huì)的AI芯片江湖中,兩大技術(shù)流派如同武林界的泰山北斗——少林與武當(dāng)。
其中,談到GPU派,門派宗師為芯片巨頭英偉達(dá)。GPU架構(gòu)就像精密的工業(yè)流水線,計(jì)算單元如同訓(xùn)練有素的工人,嚴(yán)格遵循CPU主管的指令,在馮·諾依曼架構(gòu)的框架下高效運(yùn)轉(zhuǎn)。其最大優(yōu)勢(shì)在于數(shù)十年精心構(gòu)筑的成熟軟硬件生態(tài),標(biāo)準(zhǔn)化程度高,用戶幾乎可以即插即用。然而,GPU架構(gòu)芯片的性能提升越來越依賴于制程微縮的極限突破以及HBM帶寬的艱難提升,如同攀登更加陡峭山峰。
再來看非GPU派,包括ASIC(專用集成電路)和可重構(gòu)數(shù)據(jù)流芯片,其中Groq LPU為可重構(gòu)數(shù)據(jù)流領(lǐng)域的“得意門生”,其精髓在于硬件能夠根據(jù)瞬息萬變計(jì)算任務(wù)動(dòng)態(tài)重組,構(gòu)建出高效專用通道,使得AI芯片具備靈活性和專用集成電路高效性的優(yōu)勢(shì)。
早在2015年,可重構(gòu)計(jì)算就被國際半導(dǎo)體技術(shù)路線圖(ITRS)預(yù)見為“未來最具前景的芯片架構(gòu)”,被學(xué)術(shù)界和產(chǎn)業(yè)界視為繼CPU、FPGA和GPU之外的第四類通用計(jì)算芯片。
如今英偉達(dá)獲得的Groq,并非基于GPU進(jìn)行“小修小補(bǔ)”,而是直接融合已經(jīng)被驗(yàn)證的強(qiáng)大的可重構(gòu)數(shù)據(jù)流架構(gòu),從底層構(gòu)建推理系統(tǒng),旨在實(shí)現(xiàn)AI推理速度、規(guī)模、可靠性和成本效益。
其中,被稱為“高階TPU”的Groq LPU采用軟件定義硬件的數(shù)據(jù)流式并行架構(gòu),基于格羅方德(Global Foundries)的14nm工藝制造,芯片面積約為725平方毫米,不包含外部HBM存儲(chǔ),在處理過程中,權(quán)重、鍵值緩存 (KVCache) 和激活值等數(shù)據(jù)都保存在芯片內(nèi)部,依賴于動(dòng)態(tài)調(diào)度模式,可以讓數(shù)百個(gè)核心同步激活張量模型,即可實(shí)現(xiàn)40倍于傳統(tǒng)方案的推理性能,無需依賴先進(jìn)制程即可突破能效瓶頸。
2025年7月,Moonshot AI(月之暗面)對(duì)外發(fā)布開源文本大模型Kimi K2,一度在國際權(quán)威榜單LMArena上登頂全球最強(qiáng)開源模型,緊追閉源頂尖模型。而發(fā)布后短短72小時(shí),Groq基于高階TPU架構(gòu)的AI云算力系統(tǒng),將Kimi K2的性能提升40倍,能效比超過英偉達(dá)GPU。

在互聯(lián)規(guī)模層面,得益于Groq Compiler和Groq RealScale芯片間互連技術(shù),Groq芯片構(gòu)建了一個(gè)共享的資源架構(gòu)集群,能夠在MoE(混合專家)萬億參數(shù)模型上高效運(yùn)行,提供所需的規(guī)模和速度,以跟上不斷變化的 AI 模型格局,而非出現(xiàn)輸出速度瓶頸。而且,Groq針對(duì)近乎線性的擴(kuò)展性進(jìn)行了優(yōu)化,相比于傳統(tǒng)的GPU,14nm的Groq算力芯片可以從底層架構(gòu)設(shè)計(jì)來應(yīng)對(duì) AI 工作負(fù)載擴(kuò)展的挑戰(zhàn),能效比英偉達(dá)GPU最高可提升10倍。
可靠性層面,根據(jù)開放式大模型評(píng)估框架OpenBench數(shù)據(jù)顯示,Groq與基于英偉達(dá)GPU 的 API 提供商上Together AI 運(yùn)行Kimi-K2-Instruct 模型的MMLU實(shí)例,結(jié)果表明,Groq的準(zhǔn)確率更高,在STEM、Social Sciences等方面都比肩GPU AI Infra能力。
![]()
更為關(guān)鍵的是,制造成本層面,用于制造Groq芯片的晶圓成本可能低于每片6000美元,相比之下,英偉達(dá)的H100芯片采用臺(tái)積電5nm工藝,其晶圓成本接近每片16000美元。最終,Groq芯片和單卡成本均低于英偉達(dá)H100,這對(duì)于重算力推理的客戶來說性價(jià)比更高。
以開源Mixtral 8x7b開源模型為例,Groq 的吞吐量最高可達(dá)其他推理服務(wù)的 4 倍,Tokens處理速度比GPU更快,而價(jià)格卻不到Mistral本身的三分之一。
![]()
總結(jié)來看,憑借“高階 TPU”的可重構(gòu)數(shù)據(jù)流架構(gòu),Groq在推理速度、吞吐效率、成本優(yōu)化等核心維度形成綜合優(yōu)勢(shì),全面對(duì)英偉達(dá) GPU 構(gòu)成競爭壓力。
這或許也是英偉達(dá)著急收購Groq資產(chǎn)的核心原因。
展望下一步,隨著這樁200億美元“非典型并購”交易落錘,喬納森和其他高管將共同助力英偉達(dá)構(gòu)建AI工廠。
英偉達(dá)方面表示,Groq的低延遲芯片對(duì)輸入的響應(yīng)速度極快,將為英偉達(dá)的產(chǎn)品帶來新的能力,幫助其開拓新的市場領(lǐng)域。“我們計(jì)劃將Groq的低延遲處理器整合到英偉達(dá)的AI工廠架構(gòu)中,以服務(wù)更廣泛的AI推理和實(shí)時(shí)工作負(fù)載......雖然我們正在吸納Groq的優(yōu)秀人才并獲得其知識(shí)產(chǎn)權(quán)許可,但我們并沒有收購Groq公司。”英偉達(dá)CEO黃仁勛強(qiáng)調(diào)。
黃仁勛曾稱,未來AI軟件將全面具備推理能力,這將改變AI系統(tǒng)處理方式,“我們具備大幅降低 AI 成本的能力,而這一價(jià)值已成為行業(yè)共識(shí)。一旦實(shí)現(xiàn)成本的顯著優(yōu)化,我們便能在推理領(lǐng)域開展更深度的探索與創(chuàng)新。”
非GPU時(shí)代已來
當(dāng)前,英偉達(dá)這一AI芯片市場的“霸主”似乎正迎來些許動(dòng)搖,市場對(duì)英偉達(dá)的未來投下了新的審視目光。
據(jù)報(bào)道,英偉達(dá)的大客戶Meta正考慮在其數(shù)據(jù)中心大規(guī)模采用谷歌自研的AI芯片——張量處理單元(TPU),并可能最早于明年開始租用。這一消息猶如一顆重磅炸彈,瞬間引爆市場。在11月25日交易中,英偉達(dá)股價(jià)一度暴跌6%,市值蒸發(fā)數(shù)千億美元。
實(shí)際上,隨著AI大模型的重心從訓(xùn)練走向推理和Agentic AI,英偉達(dá)GPU的缺陷日益突出。
首先,GPU并非為推理優(yōu)化,它的設(shè)計(jì)初衷是高速并行計(jì)算,而不是以最低成本執(zhí)行重復(fù)推理指令。
其次,GPU的靈活性意味著其硬件資源在實(shí)際推理場景中可能并非最優(yōu)配置,導(dǎo)致單位能耗的效率不如ASIC。
最后,英偉達(dá)的定價(jià)權(quán)極高,云廠商往往需要以遠(yuǎn)高于制造成本的價(jià)格購入GPU,形成了強(qiáng)勢(shì)壟斷方案。
因此,在上述諸多背景下,谷歌、Meta、Cerebras Systems等公司都在發(fā)力非GPU技術(shù)。而英偉達(dá)最后選擇大規(guī)模收購Groq公司,以避免“高階TPU”架構(gòu)的領(lǐng)導(dǎo)者Groq,將與英偉達(dá)GPU共同“混戰(zhàn)”的局面。
早在2025年,谷歌推出第七代TPU Ironwood,不僅是TPU歷史上第一款最強(qiáng)推理芯片,而且在架構(gòu)、規(guī)模、可靠性、網(wǎng)絡(luò)與軟件系統(tǒng)上等AI基礎(chǔ)設(shè)施技術(shù)層面都進(jìn)行了重構(gòu),在多項(xiàng)關(guān)鍵指標(biāo)上首次與英偉達(dá)Blackwell系列實(shí)現(xiàn)正面交鋒。
單芯片層面,Ironwood的FP8稠密算力達(dá)到4.6 petaFLOPS,略高于Nvidia B200的4.5 petaFLOPS,已躋身全球旗艦加速器第一梯隊(duì)。更重要的是,一個(gè)Ironwood Pod可集成9216顆芯片,構(gòu)成一個(gè)超節(jié)點(diǎn),F(xiàn)P8峰值性能超過42.5 exaFLOPS,在特定FP8負(fù)載下,該P(yáng)od性能相當(dāng)于最接近競品系統(tǒng)的118倍。
這不僅是單芯片差距,而且面對(duì)英偉達(dá),谷歌TPU在系統(tǒng)架構(gòu)、拓?fù)湓O(shè)計(jì)、集群擴(kuò)展能力等層面獲得碾壓式勝利。
知名投行花旗認(rèn)為,英偉達(dá)短期地位穩(wěn)固,但同時(shí)預(yù)測(cè)其AI芯片市場份額將從90%逐步下滑至2028年的81%。
從投資視角來看,英偉達(dá)以 200 億美元收購 Groq 的交易,不僅創(chuàng)下其自身史上規(guī)模最大的并購紀(jì)錄,更堪稱 AI 算力賽道的重磅布局。這筆交易的 “重量級(jí)” 顯而易見:200 億美元相當(dāng)于英偉達(dá)手頭近三分之一的資金儲(chǔ)備,如此罕見的大手筆,也讓市場戲稱其是 “用巨額資金買下核心技術(shù) IP”。
這背后,恰恰印證了可重構(gòu)數(shù)據(jù)流架構(gòu)的巨大價(jià)值 —— “高階TPU”技術(shù)不僅是 Groq 的核心競爭力,更是英偉達(dá)不惜重金補(bǔ)齊非 GPU 賽道短板、鞏固算力領(lǐng)域主導(dǎo)地位的關(guān)鍵所在。
據(jù)報(bào)道,另一家可重構(gòu)芯片設(shè)計(jì)公司SambaNova也迎來與Groq一樣的收購局面。據(jù)報(bào)道,英特爾正在就收購美國AI芯片獨(dú)角獸SambaNova進(jìn)行初步談判,SambaNova公司估值達(dá)到50億美元。
展望未來,非GPU賽道前景廣闊。
據(jù)國際數(shù)據(jù)公司(IDC)的最新數(shù)據(jù)顯示,預(yù)計(jì)2025年,AI算力芯片市場規(guī)模超過1285億美元,同比增長47.1%,預(yù)計(jì)2030年AI芯片市場規(guī)模達(dá)4138億美元,其中,非GPU架構(gòu)芯片市場規(guī)模占比超過21%,而推理芯片占比提升至65%。
![]()
反觀國內(nèi)市場,IDC數(shù)據(jù)統(tǒng)計(jì)顯示,2024年,中國加速服務(wù)器市場規(guī)模達(dá)到221億美元,同比增長134%。其中,非GPU加速服務(wù)器高速增長,占比超過30%。IDC預(yù)測(cè),到2029年,中國非GPU服務(wù)器市場規(guī)模占比將接近50%。其中國內(nèi)ASIC以寒武紀(jì)、昆侖芯為代表,可重構(gòu)數(shù)據(jù)流則是以清微智能作為這個(gè)賽道的標(biāo)志性企業(yè)。
2026,GPU,ASIC,可重構(gòu)數(shù)據(jù)流,誰將撐起全球AI算力產(chǎn)業(yè)的半壁江山還是三分天下,我們拭目以待。
*免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn),半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn),不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。
今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4269期內(nèi)容,歡迎關(guān)注。
加星標(biāo)??第一時(shí)間看推送,小號(hào)防走丟


求推薦

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.