網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

英偉達(dá)1400億“收購”，GPU拐點(diǎn)已現(xiàn)？

GPU拐點(diǎn)已現(xiàn)了嗎

2025-12-27 09:36:04　來源: 半導(dǎo)體行業(yè)觀察

上海舉報(bào)

分享至

公眾號(hào)記得加星標(biāo)??，第一時(shí)間看推送不會(huì)錯(cuò)過。

多年以后，2025年圣誕節(jié)這一天，會(huì)載入全球AI算力芯片產(chǎn)業(yè)發(fā)展史。

12月25日凌晨，英偉達(dá)和Groq宣布達(dá)成“非排他性授權(quán)協(xié)議”，以200億美元（約合1400億元）現(xiàn)金價(jià)格購買一家“非GPU”架構(gòu)企業(yè)的技術(shù)授權(quán)。

這場交易是英偉達(dá)有史以來規(guī)模最大的一筆“投資”，該公司將現(xiàn)金和短期持有資本606億美元的三分之一都給了這家公司，超出該公司此前估值的3倍，可見其必須拿下該項(xiàng)技術(shù)的決心。

這一激進(jìn)動(dòng)作背后，與近期谷歌TPU等“非GPU架構(gòu)”的風(fēng)頭正勁密切相關(guān)。英偉達(dá)收購的這家芯片公司Groq的創(chuàng)始人兼CEO，正是谷歌“TPU芯片”締造者——喬納森·羅斯（Jonathan Ross），收購后喬納森及Groq的核心技術(shù)成員也將集體加盟英偉達(dá)。

值得注意的是，Groq主攻的也并非谷歌TPU同款架構(gòu)，而是獨(dú)創(chuàng)的LPU——軟件定義硬件的可重構(gòu)數(shù)據(jù)流架構(gòu)，消除了內(nèi)存帶寬的瓶頸。這種設(shè)計(jì)讓LPU在處理大語言模型時(shí)，能實(shí)現(xiàn)每秒數(shù)百個(gè)Token的“瞬時(shí)”吐字，這是TPU和傳統(tǒng)GPU無法企及的物理極限。這一技術(shù)也被業(yè)界及媒體譽(yù)為“高階TPU”。甚至一些業(yè)內(nèi)人士表示，對(duì)于推理環(huán)節(jié)而言，Groq的可重構(gòu)數(shù)據(jù)流可能是最好的技術(shù)路徑選擇，沒有之一。

英偉達(dá)CEO黃仁勛（Jensen Huang）年初曾表示，他認(rèn)為AI推理需求將增長百倍。而英偉達(dá)在歲末這個(gè)時(shí)點(diǎn)“強(qiáng)勢(shì)收編”推理優(yōu)化的低延遲芯片制造商Groq，或許已經(jīng)承認(rèn)了GPU并非AI推理工作的理想選擇，更對(duì)外印證了非GPU架構(gòu)在 AI 算力時(shí)代的重要性正日益凸顯。

讓模型性能暴漲40倍，新架構(gòu)超越GPU

事實(shí)上，AI 大模型熱潮引發(fā)了算力需求暴漲。從文本生成、AI 圖像創(chuàng)作到 AI 視頻合成，從大規(guī)模模型訓(xùn)練到高復(fù)雜度推理任務(wù)，大模型展現(xiàn)出令人驚嘆的能力，這也讓AI算力芯片在其中發(fā)揮關(guān)鍵作用。

隨著AI應(yīng)用場景豐富、任務(wù)日趨復(fù)雜，AI 芯片賽道早已告別零散玩家試水的階段，形成了兩大涇渭分明的技術(shù)流派：一派是以 GPU 為代表的共享式集中計(jì)算派（簡稱 GPU 派）；另一派則是以ASIC（谷歌 TPU）、可重構(gòu)數(shù)據(jù)流芯片（Groq LPU）為代表的非GPU派。

在這個(gè)風(fēng)云際會(huì)的AI芯片江湖中，兩大技術(shù)流派如同武林界的泰山北斗——少林與武當(dāng)。

其中，談到GPU派，門派宗師為芯片巨頭英偉達(dá)。GPU架構(gòu)就像精密的工業(yè)流水線，計(jì)算單元如同訓(xùn)練有素的工人，嚴(yán)格遵循CPU主管的指令，在馮·諾依曼架構(gòu)的框架下高效運(yùn)轉(zhuǎn)。其最大優(yōu)勢(shì)在于數(shù)十年精心構(gòu)筑的成熟軟硬件生態(tài)，標(biāo)準(zhǔn)化程度高，用戶幾乎可以即插即用。然而，GPU架構(gòu)芯片的性能提升越來越依賴于制程微縮的極限突破以及HBM帶寬的艱難提升，如同攀登更加陡峭山峰。

再來看非GPU派，包括ASIC（專用集成電路）和可重構(gòu)數(shù)據(jù)流芯片，其中Groq LPU為可重構(gòu)數(shù)據(jù)流領(lǐng)域的“得意門生”，其精髓在于硬件能夠根據(jù)瞬息萬變計(jì)算任務(wù)動(dòng)態(tài)重組，構(gòu)建出高效專用通道，使得AI芯片具備靈活性和專用集成電路高效性的優(yōu)勢(shì)。

早在2015年，可重構(gòu)計(jì)算就被國際半導(dǎo)體技術(shù)路線圖（ITRS）預(yù)見為“未來最具前景的芯片架構(gòu)”，被學(xué)術(shù)界和產(chǎn)業(yè)界視為繼CPU、FPGA和GPU之外的第四類通用計(jì)算芯片。

如今英偉達(dá)獲得的Groq，并非基于GPU進(jìn)行“小修小補(bǔ)”，而是直接融合已經(jīng)被驗(yàn)證的強(qiáng)大的可重構(gòu)數(shù)據(jù)流架構(gòu)，從底層構(gòu)建推理系統(tǒng)，旨在實(shí)現(xiàn)AI推理速度、規(guī)模、可靠性和成本效益。

其中，被稱為“高階TPU”的Groq LPU采用軟件定義硬件的數(shù)據(jù)流式并行架構(gòu)，基于格羅方德（Global Foundries）的14nm工藝制造，芯片面積約為725平方毫米，不包含外部HBM存儲(chǔ)，在處理過程中，權(quán)重、鍵值緩存 (KVCache) 和激活值等數(shù)據(jù)都保存在芯片內(nèi)部，依賴于動(dòng)態(tài)調(diào)度模式，可以讓數(shù)百個(gè)核心同步激活張量模型，即可實(shí)現(xiàn)40倍于傳統(tǒng)方案的推理性能，無需依賴先進(jìn)制程即可突破能效瓶頸。

2025年7月，Moonshot AI（月之暗面）對(duì)外發(fā)布開源文本大模型Kimi K2，一度在國際權(quán)威榜單LMArena上登頂全球最強(qiáng)開源模型，緊追閉源頂尖模型。而發(fā)布后短短72小時(shí)，Groq基于高階TPU架構(gòu)的AI云算力系統(tǒng)，將Kimi K2的性能提升40倍，能效比超過英偉達(dá)GPU。

在互聯(lián)規(guī)模層面，得益于Groq Compiler和Groq RealScale芯片間互連技術(shù)，Groq芯片構(gòu)建了一個(gè)共享的資源架構(gòu)集群，能夠在MoE（混合專家）萬億參數(shù)模型上高效運(yùn)行，提供所需的規(guī)模和速度，以跟上不斷變化的 AI 模型格局，而非出現(xiàn)輸出速度瓶頸。而且，Groq針對(duì)近乎線性的擴(kuò)展性進(jìn)行了優(yōu)化，相比于傳統(tǒng)的GPU，14nm的Groq算力芯片可以從底層架構(gòu)設(shè)計(jì)來應(yīng)對(duì) AI 工作負(fù)載擴(kuò)展的挑戰(zhàn)，能效比英偉達(dá)GPU最高可提升10倍。

可靠性層面，根據(jù)開放式大模型評(píng)估框架OpenBench數(shù)據(jù)顯示，Groq與基于英偉達(dá)GPU 的 API 提供商上Together AI 運(yùn)行Kimi-K2-Instruct 模型的MMLU實(shí)例，結(jié)果表明，Groq的準(zhǔn)確率更高，在STEM、Social Sciences等方面都比肩GPU AI Infra能力。

更為關(guān)鍵的是，制造成本層面，用于制造Groq芯片的晶圓成本可能低于每片6000美元，相比之下，英偉達(dá)的H100芯片采用臺(tái)積電5nm工藝，其晶圓成本接近每片16000美元。最終，Groq芯片和單卡成本均低于英偉達(dá)H100，這對(duì)于重算力推理的客戶來說性價(jià)比更高。

以開源Mixtral 8x7b開源模型為例，Groq 的吞吐量最高可達(dá)其他推理服務(wù)的 4 倍，Tokens處理速度比GPU更快，而價(jià)格卻不到Mistral本身的三分之一。

總結(jié)來看，憑借“高階 TPU”的可重構(gòu)數(shù)據(jù)流架構(gòu)，Groq在推理速度、吞吐效率、成本優(yōu)化等核心維度形成綜合優(yōu)勢(shì)，全面對(duì)英偉達(dá) GPU 構(gòu)成競爭壓力。

這或許也是英偉達(dá)著急收購Groq資產(chǎn)的核心原因。

展望下一步，隨著這樁200億美元“非典型并購”交易落錘，喬納森和其他高管將共同助力英偉達(dá)構(gòu)建AI工廠。

英偉達(dá)方面表示，Groq的低延遲芯片對(duì)輸入的響應(yīng)速度極快，將為英偉達(dá)的產(chǎn)品帶來新的能力，幫助其開拓新的市場領(lǐng)域。“我們計(jì)劃將Groq的低延遲處理器整合到英偉達(dá)的AI工廠架構(gòu)中，以服務(wù)更廣泛的AI推理和實(shí)時(shí)工作負(fù)載......雖然我們正在吸納Groq的優(yōu)秀人才并獲得其知識(shí)產(chǎn)權(quán)許可，但我們并沒有收購Groq公司。”英偉達(dá)CEO黃仁勛強(qiáng)調(diào)。

黃仁勛曾稱，未來AI軟件將全面具備推理能力，這將改變AI系統(tǒng)處理方式，“我們具備大幅降低 AI 成本的能力，而這一價(jià)值已成為行業(yè)共識(shí)。一旦實(shí)現(xiàn)成本的顯著優(yōu)化，我們便能在推理領(lǐng)域開展更深度的探索與創(chuàng)新。”

非GPU時(shí)代已來

當(dāng)前，英偉達(dá)這一AI芯片市場的“霸主”似乎正迎來些許動(dòng)搖，市場對(duì)英偉達(dá)的未來投下了新的審視目光。

據(jù)報(bào)道，英偉達(dá)的大客戶Meta正考慮在其數(shù)據(jù)中心大規(guī)模采用谷歌自研的AI芯片——張量處理單元（TPU），并可能最早于明年開始租用。這一消息猶如一顆重磅炸彈，瞬間引爆市場。在11月25日交易中，英偉達(dá)股價(jià)一度暴跌6%，市值蒸發(fā)數(shù)千億美元。

實(shí)際上，隨著AI大模型的重心從訓(xùn)練走向推理和Agentic AI，英偉達(dá)GPU的缺陷日益突出。

首先，GPU并非為推理優(yōu)化，它的設(shè)計(jì)初衷是高速并行計(jì)算，而不是以最低成本執(zhí)行重復(fù)推理指令。

其次，GPU的靈活性意味著其硬件資源在實(shí)際推理場景中可能并非最優(yōu)配置，導(dǎo)致單位能耗的效率不如ASIC。

最后，英偉達(dá)的定價(jià)權(quán)極高，云廠商往往需要以遠(yuǎn)高于制造成本的價(jià)格購入GPU，形成了強(qiáng)勢(shì)壟斷方案。

因此，在上述諸多背景下，谷歌、Meta、Cerebras Systems等公司都在發(fā)力非GPU技術(shù)。而英偉達(dá)最后選擇大規(guī)模收購Groq公司，以避免“高階TPU”架構(gòu)的領(lǐng)導(dǎo)者Groq，將與英偉達(dá)GPU共同“混戰(zhàn)”的局面。

早在2025年，谷歌推出第七代TPU Ironwood，不僅是TPU歷史上第一款最強(qiáng)推理芯片，而且在架構(gòu)、規(guī)模、可靠性、網(wǎng)絡(luò)與軟件系統(tǒng)上等AI基礎(chǔ)設(shè)施技術(shù)層面都進(jìn)行了重構(gòu)，在多項(xiàng)關(guān)鍵指標(biāo)上首次與英偉達(dá)Blackwell系列實(shí)現(xiàn)正面交鋒。

單芯片層面，Ironwood的FP8稠密算力達(dá)到4.6 petaFLOPS，略高于Nvidia B200的4.5 petaFLOPS，已躋身全球旗艦加速器第一梯隊(duì)。更重要的是，一個(gè)Ironwood Pod可集成9216顆芯片，構(gòu)成一個(gè)超節(jié)點(diǎn)，F(xiàn)P8峰值性能超過42.5 exaFLOPS，在特定FP8負(fù)載下，該P(yáng)od性能相當(dāng)于最接近競品系統(tǒng)的118倍。

這不僅是單芯片差距，而且面對(duì)英偉達(dá)，谷歌TPU在系統(tǒng)架構(gòu)、拓?fù)湓O(shè)計(jì)、集群擴(kuò)展能力等層面獲得碾壓式勝利。

知名投行花旗認(rèn)為，英偉達(dá)短期地位穩(wěn)固，但同時(shí)預(yù)測(cè)其AI芯片市場份額將從90%逐步下滑至2028年的81%。

從投資視角來看，英偉達(dá)以 200 億美元收購 Groq 的交易，不僅創(chuàng)下其自身史上規(guī)模最大的并購紀(jì)錄，更堪稱 AI 算力賽道的重磅布局。這筆交易的 “重量級(jí)” 顯而易見：200 億美元相當(dāng)于英偉達(dá)手頭近三分之一的資金儲(chǔ)備，如此罕見的大手筆，也讓市場戲稱其是 “用巨額資金買下核心技術(shù) IP”。

這背后，恰恰印證了可重構(gòu)數(shù)據(jù)流架構(gòu)的巨大價(jià)值 —— “高階TPU”技術(shù)不僅是 Groq 的核心競爭力，更是英偉達(dá)不惜重金補(bǔ)齊非 GPU 賽道短板、鞏固算力領(lǐng)域主導(dǎo)地位的關(guān)鍵所在。

據(jù)報(bào)道，另一家可重構(gòu)芯片設(shè)計(jì)公司SambaNova也迎來與Groq一樣的收購局面。據(jù)報(bào)道，英特爾正在就收購美國AI芯片獨(dú)角獸SambaNova進(jìn)行初步談判，SambaNova公司估值達(dá)到50億美元。

展望未來，非GPU賽道前景廣闊。

據(jù)國際數(shù)據(jù)公司（IDC）的最新數(shù)據(jù)顯示，預(yù)計(jì)2025年，AI算力芯片市場規(guī)模超過1285億美元，同比增長47.1%，預(yù)計(jì)2030年AI芯片市場規(guī)模達(dá)4138億美元，其中，非GPU架構(gòu)芯片市場規(guī)模占比超過21%，而推理芯片占比提升至65%。

反觀國內(nèi)市場，IDC數(shù)據(jù)統(tǒng)計(jì)顯示，2024年，中國加速服務(wù)器市場規(guī)模達(dá)到221億美元，同比增長134%。其中，非GPU加速服務(wù)器高速增長，占比超過30%。IDC預(yù)測(cè)，到2029年，中國非GPU服務(wù)器市場規(guī)模占比將接近50%。其中國內(nèi)ASIC以寒武紀(jì)、昆侖芯為代表，可重構(gòu)數(shù)據(jù)流則是以清微智能作為這個(gè)賽道的標(biāo)志性企業(yè)。

2026，GPU，ASIC，可重構(gòu)數(shù)據(jù)流，誰將撐起全球AI算力產(chǎn)業(yè)的半壁江山還是三分天下，我們拭目以待。

*免責(zé)聲明：本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn)，半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn)，不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持，如果有任何異議，歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。

今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4269期內(nèi)容，歡迎關(guān)注。

加星標(biāo)??第一時(shí)間看推送，小號(hào)防走丟

求推薦

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.