網易首頁 > 網易號 > 正文申請入駐

全球算力格局震蕩，“高階TPU”崛起！

2026-03-02 23:00:24　來源: 芯東西

北京舉報

分享至

芯東西（公眾號：aichip001）
作者程茜
編輯漠影

芯東西3月2日消息，近日，多家外媒報道，非GPU芯片應用迎來爆發期，前有Meta傳已與谷歌簽署數十億美元合作，大規模租用TPU訓練模型；后有OpenAI被曝計劃導入英偉達基于Groq技術的AI推理芯片。

這些重磅合作正是全球AI算力格局加速重構的縮影。2026年伊始，摩根大通的一份產能報告流出：谷歌計劃在2027年部署600-700萬顆TPU，大部分將供給Anthropic、OpenAI、Meta以及蘋果等外部客戶。

無獨有偶，2月13日，OpenAI上線GPT-5.3-Codex-Spark。這款模型選擇了一家特殊的芯片廠商來承接推理任務——Cerebras，一個以“晶圓級芯片”挑戰英偉達的“叛逆者”。這是OpenAI首次在主力模型上大規模采用非GPU芯片完成部署，背后原因在于Cerebras帶來的更低延遲與更低能耗，為實時編程帶來接近實時的響應體驗。

僅僅半年之前，全球AI產業的目光還牢牢鎖定在英偉達的財報和產能分配上，人們爭相與這家算力巨擘結成利益同盟。如今，全球頭號AI玩家們紛紛重新規劃未來幾年的芯片訂單。

IDC預測，到2028年，中國非GPU服務器市場規模占比將接近50%；高盛投資研究部的模型顯示，全球AI服務器中非GPU芯片出貨占比，將從2024年的36%增長至2027年的45%。

▲全球AI芯片中GPU架構和非GPU架構比例（數據來源：高盛全球投資研究部，芯東西制圖）

面對日益清晰的算力變局，一個更深層的轉折正在發生：AI的競爭焦點正從單純的算力規模，深刻轉向對能效比與延遲的極致追求。

這一轉折，將GPU推向尷尬境地：由于每次計算都需要在外部顯存和計算單元之間頻繁往返搬運數據，這種冗長的傳輸路徑讓GPU始終受困于高能耗和高延遲的先天缺陷。路透社爆料，OpenAI已多次表示對英偉達芯片的“不滿”——響應速度未達預期，在代碼生成產品Codex上感受尤為明顯。

壓力迫使英偉達這條“巨龍”尋求改變。2025年底，英偉達不惜以近三倍溢價拿下Groq核心技術與團隊。這家公司的創始人Jonathan Ross正是谷歌TPU核心設計者。被稱為“TPU之父”的他，創立Groq的初衷就是要打造一款超越谷歌TPU的AI芯片。最終，英偉達以200億美元的天價，買下了這把“高階TPU”之劍。

去GPU化的趨勢仍在繼續。沒有人愿意把未來十年的基礎設施押注在一個能耗大、延遲高、系統封閉的技術上。但這場算力變局的核心懸念尚未解開：TPU能否真正扛起對抗GPU的大旗？那個讓英偉達不惜押下重注的Groq，又藏著怎樣的技術底牌？

一、從自用到商用：谷歌TPU擾動全球算力格局

一直以來，谷歌TPU都作為其內部的核心算力支撐，專供自家大模型訓練與推理使用。而去年至今，谷歌策略發生重大轉變，被曝要正式將TPU推向商用市場。

巨額訂單迅速涌向谷歌。

博通CEO透露，AI明星公司Anthropic下單了總額210億美元（約1486億元人民幣）的訂單，采購基于谷歌TPU構建的AI算力系統；與此同時，Meta被曝已與谷歌達成數十億美元的AI芯片交易。此外，潛在客戶還包括蘋果，以及已與SpaceX合并的xAI等，TPU市場規模持續擴大。

這背后是雙重機遇的疊加。

一方面，大模型進入規模化落地階段，全球算力需求爆發、成本壓力加劇，單一依賴GPU的架構瓶頸日益凸顯。

另一方面，谷歌TPU的性能已具備與頂級GPU分庭抗禮的實力——2025年推出的第七代TPU，是谷歌迄今為止性能最高、可擴展性最強的AI芯片：單芯片峰值算力4614 TFLOPS（FP8精度），最大集群9216顆芯片、總算力達42.5 EFLOPS。

TPU v7在同等算力輸出下功耗僅為英偉達B200的40%至50%。更為關鍵的是，依托自研光電路交換機（OCS）技術，其萬卡級集群可實現近乎線性的加速比，顯著降低了傳統GPU集群在萬卡規模下的通信效率損耗。

▲Google TPU v5e、v5p、v6、v7 芯片關鍵性能對比（圖片來源：SemiAnalysis）

谷歌TPU崛起還有更為直接的例證：在TPU上訓練的Gemini 3，在多個權威基準測試中位居榜首，為業界頂尖模型之一。

此外，對于大模型公司而言，算力成本是繞不開的難題。“每美元產生的Token數”正取代峰值算力，成為衡量芯片商業價值的標尺。TPU憑借AI專用架構帶來的2-4倍能效優勢，以及萬卡集群近乎線性的擴展能力，將大模型推理的綜合成本相比GPU拉低50%以上——這正是Anthropic、Meta們用訂單投票的根本邏輯。

因此，當下大多大模型企業會選擇采購TPU+GPU多元算力來緩解成本壓力。去年11月，半導體研究機構SemiAnalysis對比大模型公司的采購成本后發現：與OpenAI相比，同時使用TPU與GPU的Anthropic，在與英偉達談判時擁有更強的議價權。這一事實表明：未來頭部AI公司，大概率都會轉向“多芯片并行”路線，以降低對單一架構的依賴、提升成本競爭力。

▲OpenAI與Anthropic購買算力的成本對比（圖片來源：SemiAnalysis）

綜上，谷歌TPU的性能跨越式提升、頂尖大模型的規模化驗證、頭部AI公司的主動布局，這三重因素共同印證，TPU已從過去的全球算力產業補充路線，正式升級為全球算力競爭中的主流路線。這不僅打破了長期由英偉達絕對主導的AI芯片格局，也為國內外算力芯片打開了全新發展窗口。

二、不止于TPU：十年磨一劍，“TPU之父”探索更高階的可能

然而，谷歌TPU的成功并非終點。國內外一批聚焦TPU芯片的創新企業快速崛起，它們擺脫復刻谷歌TPU的發展模式，逐步走出了一條差異化、多元化并行的發展之路。

這其中的代表玩家，就是被英偉達高價收購的AI芯片創企Groq。這家公司的創始人，被稱為“TPU之父”的Jonathan Ross，創立Groq的初衷就是要打造一款超越谷歌TPU的AI芯片。行業資深專家表示，二者的不同之處與芯片架構密切相關。

谷歌TPU采用“固定架構+集群擴展”的設計思路：其芯片內部搭載相對固定的計算單元，依托二維數據流模式開展固定化的算力運算；在芯片間互聯層面，則通過構建3D Torus拓撲結構，實現多芯片間的高效數據流傳輸與協同計算。

▲谷歌TPU架構（圖片來源：谷歌官網）

與谷歌TPU芯片的固定數據流不同，Groq的TSP（Tensor Streaming Processor）芯片是一種“軟件定義硬件”（Software Defined Hardware）的新型數據流處理器。

“通過構建可重構的軟硬件系統，使其在保持可編程性的同時，達到接近ASIC的極致性能。”美國DARPA“電子復興計劃”（ERI）高度看好“軟件定義硬件”技術，并將其作為國家級戰略布局的核心方向之一。

這也是Groq被稱之為“高階TPU”的原因。通過芯片內功能切片化微架構的底層設計，結合軟件層面的靈活配置能力，TSP可根據不同任務場景和計算需求實現計算邏輯與數據流路徑映射。同時，該芯片依托大容量片上SRAM及靜態調度機制，在顯著提升數據訪存效率的同時還能有效降低數據搬運能耗，實現計算效率的提升。

二者的性能表現對比，Groq的優勢也已經得到數據驗證。公開信息顯示，在相同推理任務中，Groq芯片的首token延遲比谷歌TPU v7芯片降低20%～50%，每token成本降低10%～30%。

架構選擇的背后，折射出整個產業對計算效率瓶頸的重新審視。計算機體系結構泰斗、圖靈獎獲得者David Patterson教授在最新研究中指出，大模型每次生成都繞不開數據搬運，而搬運能耗遠高于計算本身，未來的核心命題是“讓數據離計算更近”。

為此，他提出了幾個AI芯片的演進方向：近內存處理、3D堆疊、低延遲互連。這些均指向同一個目標——用架構創新降低數據移動的能耗與延遲。

David Patterson的洞察將AI規模化的競爭拉回最樸素的物理層面，誰能用更低的能耗、更低的延遲跑通下一代模型，誰就能在未來十年的算力牌桌上占得先機。

三、“高階TPU”含金量還在上升：三大創新將架構優勢發揮至極

相比于Groq所強調的確定性數據流能力，國內的清微智能、海外的Cerebras等芯片企業在高效的多維度數據流動態配置及先進集成方式上，還在持續提升“高階TPU”的含金量。

主要表現為如下幾個方面：

其一，通過3D Chiplet技術構建三維立體數據流架構。依托“計算核心+3D DRAM芯粒”的組合，清微智能在“垂直+水平”兩個維度上形成高效數據流計算模式，核心目標是突破傳統二維數據流架構的效率局限。

具體而言，三維數據流計算架構可依據計算任務核心需求以及數據特性，在水平維度與垂直維度上實現數據流的靈活調度，最大化縮短數據傳輸路徑、提升數據流周轉效率，顯著降低數據搬運過程中的延遲與能耗，最終實現計算效率的進一步提升。

其二，是依托算力網格技術構建靈活數據流計算范式。該技術可突破傳統固定組網的擴展性與語義適配瓶頸，通過靈活組網及Scale up與Scale out協同，能根據AI任務特性，實時下發數據流的動態配置信息，實現在多種互聯拓撲結構間靈活切換和精準調度，降低互聯延遲，充分釋放數據流架構算力。

其三，通過前沿的晶圓級芯片技術，將數據流架構的優勢發揮到極致。具體而言，晶圓級芯片技術將數據流架構思想從芯片內部擴展至整片晶圓尺度，在整片晶圓高密度集成大量計算核心，極大縮短計算核心間的互聯距離，實現數量級的互聯帶寬提升與通信延遲的降低，從而將數據流架構的算力規模與計算效能發揮到極致，是數據流計算架構的理想物理載體。

以Cerebras晶圓級芯片為例。實測數據顯示，Cerebras CS 3系統在推理性能上較英偉達旗艦DGX B200 Blackwell GPU快21倍，成本與功耗均降低 1/3，在算力、成本、能效上展現出顯著的綜合優勢。

▲Cerebras CS-3 vs英偉達GPU：大模型推理速度對比（圖片來源：Cerebras官網）

結語：AI算力規則正在重構

當谷歌TPU走出圍墻、OpenAI擁抱晶圓級芯片、英偉達天價收編Groq，這些信號均指向同一個方向：TPU已變成巨頭們真金白銀押注的主戰場。

算力世界的單極時代，正在被多元架構終結。決定下一代AI天花板的，不再是算力堆砌的軍備競賽，而是能耗、延遲、確定性共同構成的AI能力新指標。

對于國產芯片而言，這場變局既是機遇也是挑戰。跟隨者只能瓜分殘羹，唯有走出自己的底層創新之路，才有資格參與下一輪全球算力洗牌。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.