![]()
芯東西(公眾號:aichip001)
作者 程茜
編輯 漠影
芯東西3月2日消息,近日,多家外媒報道,非GPU芯片應用迎來爆發期,前有Meta傳已與谷歌簽署數十億美元合作,大規模租用TPU訓練模型;后有OpenAI被曝計劃導入英偉達基于Groq技術的AI推理芯片。
這些重磅合作正是全球AI算力格局加速重構的縮影。2026年伊始,摩根大通的一份產能報告流出:谷歌計劃在2027年部署600-700萬顆TPU,大部分將供給Anthropic、OpenAI、Meta以及蘋果等外部客戶。
無獨有偶,2月13日,OpenAI上線GPT-5.3-Codex-Spark。這款模型選擇了一家特殊的芯片廠商來承接推理任務——Cerebras,一個以“晶圓級芯片”挑戰英偉達的“叛逆者”。這是OpenAI首次在主力模型上大規模采用非GPU芯片完成部署,背后原因在于Cerebras帶來的更低延遲與更低能耗,為實時編程帶來接近實時的響應體驗。
僅僅半年之前,全球AI產業的目光還牢牢鎖定在英偉達的財報和產能分配上,人們爭相與這家算力巨擘結成利益同盟。如今,全球頭號AI玩家們紛紛重新規劃未來幾年的芯片訂單。
IDC預測,到2028年,中國非GPU服務器市場規模占比將接近50%;高盛投資研究部的模型顯示,全球AI服務器中非GPU芯片出貨占比,將從2024年的36%增長至2027年的45%。
![]()
▲全球AI芯片中GPU架構和非GPU架構比例(數據來源:高盛全球投資研究部,芯東西制圖)
面對日益清晰的算力變局,一個更深層的轉折正在發生:AI的競爭焦點正從單純的算力規模,深刻轉向對能效比與延遲的極致追求。
這一轉折,將GPU推向尷尬境地:由于每次計算都需要在外部顯存和計算單元之間頻繁往返搬運數據,這種冗長的傳輸路徑讓GPU始終受困于高能耗和高延遲的先天缺陷。路透社爆料,OpenAI已多次表示對英偉達芯片的“不滿”——響應速度未達預期,在代碼生成產品Codex上感受尤為明顯。
壓力迫使英偉達這條“巨龍”尋求改變。2025年底,英偉達不惜以近三倍溢價拿下Groq核心技術與團隊。這家公司的創始人Jonathan Ross正是谷歌TPU核心設計者。被稱為“TPU之父”的他,創立Groq的初衷就是要打造一款超越谷歌TPU的AI芯片。最終,英偉達以200億美元的天價,買下了這把“高階TPU”之劍。
去GPU化的趨勢仍在繼續。沒有人愿意把未來十年的基礎設施押注在一個能耗大、延遲高、系統封閉的技術上。但這場算力變局的核心懸念尚未解開:TPU能否真正扛起對抗GPU的大旗?那個讓英偉達不惜押下重注的Groq,又藏著怎樣的技術底牌?
![]()
一、從自用到商用:谷歌TPU擾動全球算力格局
一直以來,谷歌TPU都作為其內部的核心算力支撐,專供自家大模型訓練與推理使用。而去年至今,谷歌策略發生重大轉變,被曝要正式將TPU推向商用市場。
巨額訂單迅速涌向谷歌。
博通CEO透露,AI明星公司Anthropic下單了總額210億美元(約1486億元人民幣)的訂單,采購基于谷歌TPU構建的AI算力系統;與此同時,Meta被曝已與谷歌達成數十億美元的AI芯片交易。此外,潛在客戶還包括蘋果,以及已與SpaceX合并的xAI等,TPU市場規模持續擴大。
這背后是雙重機遇的疊加。
一方面,大模型進入規模化落地階段,全球算力需求爆發、成本壓力加劇,單一依賴GPU的架構瓶頸日益凸顯。
另一方面,谷歌TPU的性能已具備與頂級GPU分庭抗禮的實力——2025年推出的第七代TPU,是谷歌迄今為止性能最高、可擴展性最強的AI芯片:單芯片峰值算力4614 TFLOPS(FP8精度),最大集群9216顆芯片、總算力達42.5 EFLOPS。
TPU v7在同等算力輸出下功耗僅為英偉達B200的40%至50%。更為關鍵的是,依托自研光電路交換機(OCS)技術,其萬卡級集群可實現近乎線性的加速比,顯著降低了傳統GPU集群在萬卡規模下的通信效率損耗。
![]()
▲Google TPU v5e、v5p、v6、v7 芯片關鍵性能對比(圖片來源:SemiAnalysis)
谷歌TPU崛起還有更為直接的例證:在TPU上訓練的Gemini 3,在多個權威基準測試中位居榜首,為業界頂尖模型之一。
此外,對于大模型公司而言,算力成本是繞不開的難題。“每美元產生的Token數”正取代峰值算力,成為衡量芯片商業價值的標尺。TPU憑借AI專用架構帶來的2-4倍能效優勢,以及萬卡集群近乎線性的擴展能力,將大模型推理的綜合成本相比GPU拉低50%以上——這正是Anthropic、Meta們用訂單投票的根本邏輯。
因此,當下大多大模型企業會選擇采購TPU+GPU多元算力來緩解成本壓力。去年11月,半導體研究機構SemiAnalysis對比大模型公司的采購成本后發現:與OpenAI相比,同時使用TPU與GPU的Anthropic,在與英偉達談判時擁有更強的議價權。這一事實表明:未來頭部AI公司,大概率都會轉向“多芯片并行”路線,以降低對單一架構的依賴、提升成本競爭力。
![]()
▲OpenAI與Anthropic購買算力的成本對比(圖片來源:SemiAnalysis)
綜上,谷歌TPU的性能跨越式提升、頂尖大模型的規模化驗證、頭部AI公司的主動布局,這三重因素共同印證,TPU已從過去的全球算力產業補充路線,正式升級為全球算力競爭中的主流路線。這不僅打破了長期由英偉達絕對主導的AI芯片格局,也為國內外算力芯片打開了全新發展窗口。
二、不止于TPU:十年磨一劍,“TPU之父”探索更高階的可能
然而,谷歌TPU的成功并非終點。國內外一批聚焦TPU芯片的創新企業快速崛起,它們擺脫復刻谷歌TPU的發展模式,逐步走出了一條差異化、多元化并行的發展之路。
這其中的代表玩家,就是被英偉達高價收購的AI芯片創企Groq。這家公司的創始人,被稱為“TPU之父”的Jonathan Ross,創立Groq的初衷就是要打造一款超越谷歌TPU的AI芯片。行業資深專家表示,二者的不同之處與芯片架構密切相關。
谷歌TPU采用“固定架構+集群擴展”的設計思路:其芯片內部搭載相對固定的計算單元,依托二維數據流模式開展固定化的算力運算;在芯片間互聯層面,則通過構建3D Torus拓撲結構,實現多芯片間的高效數據流傳輸與協同計算。
![]()
▲谷歌TPU架構(圖片來源:谷歌官網)
與谷歌TPU芯片的固定數據流不同,Groq的TSP(Tensor Streaming Processor)芯片是一種“軟件定義硬件”(Software Defined Hardware)的新型數據流處理器。
“通過構建可重構的軟硬件系統,使其在保持可編程性的同時,達到接近ASIC的極致性能。”美國DARPA“電子復興計劃”(ERI)高度看好“軟件定義硬件”技術,并將其作為國家級戰略布局的核心方向之一。
這也是Groq被稱之為“高階TPU”的原因。通過芯片內功能切片化微架構的底層設計,結合軟件層面的靈活配置能力,TSP可根據不同任務場景和計算需求實現計算邏輯與數據流路徑映射。同時,該芯片依托大容量片上SRAM及靜態調度機制,在顯著提升數據訪存效率的同時還能有效降低數據搬運能耗,實現計算效率的提升。
二者的性能表現對比,Groq的優勢也已經得到數據驗證。公開信息顯示,在相同推理任務中,Groq芯片的首token延遲比谷歌TPU v7芯片降低20%~50%,每token成本降低10%~30%。
架構選擇的背后,折射出整個產業對計算效率瓶頸的重新審視。計算機體系結構泰斗、圖靈獎獲得者David Patterson教授在最新研究中指出,大模型每次生成都繞不開數據搬運,而搬運能耗遠高于計算本身,未來的核心命題是“讓數據離計算更近”。
為此,他提出了幾個AI芯片的演進方向:近內存處理、3D堆疊、低延遲互連。這些均指向同一個目標——用架構創新降低數據移動的能耗與延遲。
David Patterson的洞察將AI規模化的競爭拉回最樸素的物理層面,誰能用更低的能耗、更低的延遲跑通下一代模型,誰就能在未來十年的算力牌桌上占得先機。
三、“高階TPU”含金量還在上升:三大創新將架構優勢發揮至極
相比于Groq所強調的確定性數據流能力,國內的清微智能、海外的Cerebras等芯片企業在高效的多維度數據流動態配置及先進集成方式上,還在持續提升“高階TPU”的含金量。
主要表現為如下幾個方面:
其一,通過3D Chiplet技術構建三維立體數據流架構。依托“計算核心+3D DRAM芯粒”的組合,清微智能在“垂直+水平”兩個維度上形成高效數據流計算模式,核心目標是突破傳統二維數據流架構的效率局限。
具體而言,三維數據流計算架構可依據計算任務核心需求以及數據特性,在水平維度與垂直維度上實現數據流的靈活調度,最大化縮短數據傳輸路徑、提升數據流周轉效率,顯著降低數據搬運過程中的延遲與能耗,最終實現計算效率的進一步提升。
其二,是依托算力網格技術構建靈活數據流計算范式。該技術可突破傳統固定組網的擴展性與語義適配瓶頸,通過靈活組網及Scale up與Scale out協同,能根據AI任務特性,實時下發數據流的動態配置信息,實現在多種互聯拓撲結構間靈活切換和精準調度,降低互聯延遲,充分釋放數據流架構算力。
其三,通過前沿的晶圓級芯片技術,將數據流架構的優勢發揮到極致。具體而言,晶圓級芯片技術將數據流架構思想從芯片內部擴展至整片晶圓尺度,在整片晶圓高密度集成大量計算核心,極大縮短計算核心間的互聯距離,實現數量級的互聯帶寬提升與通信延遲的降低,從而將數據流架構的算力規模與計算效能發揮到極致,是數據流計算架構的理想物理載體。
以Cerebras晶圓級芯片為例。實測數據顯示,Cerebras CS 3系統在推理性能上較英偉達旗艦DGX B200 Blackwell GPU快21倍,成本與功耗均降低 1/3,在算力、成本、能效上展現出顯著的綜合優勢。
![]()
▲Cerebras CS-3 vs英偉達GPU:大模型推理速度對比(圖片來源:Cerebras官網)
結語:AI算力規則正在重構
當谷歌TPU走出圍墻、OpenAI擁抱晶圓級芯片、英偉達天價收編Groq,這些信號均指向同一個方向:TPU已變成巨頭們真金白銀押注的主戰場。
算力世界的單極時代,正在被多元架構終結。決定下一代AI天花板的,不再是算力堆砌的軍備競賽,而是能耗、延遲、確定性共同構成的AI能力新指標。
對于國產芯片而言,這場變局既是機遇也是挑戰。跟隨者只能瓜分殘羹,唯有走出自己的底層創新之路,才有資格參與下一輪全球算力洗牌。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.