2025年,谷歌第七代TPU芯片Ironwood橫空出世,不僅在性能上與英偉達旗艦產品正面抗衡,更憑借超大規模系統優勢重塑AI基礎設施競爭格局。
這顆誕生于十年前的“自救芯片”,最初只是為解決谷歌數據中心算力與功耗危機而設,如今已成長為公司的“經濟支柱”,甚至吸引Meta等巨頭計劃部署。
從2016年TPU v1支撐谷歌翻譯,到2021年v4助力PaLM 540B模型訓練,再到v7實現9216顆芯片集群的超大規模擴展,谷歌用全棧整合思路走出差異化道路。其獨特的環面拓撲與光路交換技術,讓推理成本較GPU系統低30%-40%,徹底打破“英偉達稅”的壟斷。
在AI競爭從訓練轉向推理的關鍵節點,谷歌TPU正以系統級降維打擊,改寫全球AI算力的游戲規則。未來,芯片市場的風云再起,誰能撐起新的大旗?以下,Enjoy:
來源丨騰訊科技(ID:qqtech)
文丨無忌
編輯丨蘇揚
股價“跌跌不休”,英偉達都不得不站出來表態,“我們領先了全行業一代”。
事情要從巴菲特“謝幕之作”說起——伯克希爾·哈撒韋公司首次建倉谷歌母公司Alphabet股票,隨后更勁爆的是市場又傳出英偉達大客戶Meta考慮2027年在其數據中心部署谷歌TPU,并于2026年通過谷歌云租用TPU算力。
英偉達在緊急聲明中,強調GPU在性能、通用性和可移植性方面“遠優于”ASIC(專用集成電路),并重申自研TPU無法替代 GPU的靈活性。谷歌發言人也表示繼續和英偉達保持合作關系,并強調公司致力于同時支持TPU和英偉達GPU。
TPU,從一個10年前為了解決AI計算效率瓶頸的“救命項目”,如今已經發展成為谷歌的“經濟支柱”。
作為自研ASIC芯片的代表,TPU已經具備動搖英偉達根基的潛力,只不過谷歌的邏輯不是和英偉達比單卡性能,而是在用一套完全不同的超大規模系統哲學,重新定義AI基礎設施的未來。
一切都要從10年前,TPU誕生的那一刻說起。
01TPU的前世今生
![]()
TPU v1
谷歌在2015年啟動TPU項目,這并非出于炫技,更不是為了彰顯技術實力,而是被逼入了一個“不自研將難以支撐未來業務規模”的現實。
隨著深度學習在谷歌內部的應用不斷擴散,谷歌工程團隊當時意識到一個關鍵問題正在逼近——包括搜索、廣告等谷歌核心服務都涉及巨量用戶請求,如果全面采用深度學習模型,那么谷歌全球數據中心的功耗將暴漲至難以承受的程度,即使采購再多GPU也無法滿足需求,更不用說成本上的激增。
彼時GPU更適合訓練大規模神經網絡,但其能效并非針對實時在線推理設計。
谷歌內部甚至出現過預測:如果未來所有核心業務上線深度模型,全球數據中心的電力成本會增長十倍。內部高層意識到,繼續依賴 CPU和GPU的現有路線不可持續。
因此,谷歌決定自研ASIC加速器,目標不是造一個“最強通用芯片”,而是造一個“可大量部署在數據中心、用于特定矩陣運算的高能效芯片”。
最終,TPU v1在2016年正式投入使用,用于支持谷歌翻譯以及部分搜索功能,證明了ASIC方案具備可行性。
2017年Transformer論文發表后,谷歌幾乎在同一時間意識到:這個新架構的計算模式高度規則、矩陣密度極高、并行度驚人,簡直是為TPU量身定做的。與其讓外部硬件廠商慢慢跟進,不如自己把軟件框架、編譯器、芯片架構、網絡拓撲、散熱系統全部握在手里,形成全棧閉環。
于是,TPU不再是一個孤立的芯片,而升級為谷歌AI基礎設施的底座:既要訓練出世界最強的模型,也要讓AI以最低成本滲透到公司每一條產品線。
從v2、v3開始,谷歌逐步開放TPU給谷歌云客戶,正式進入商業化階段。
雖然早期生態和兼容性仍遜于GPU,但谷歌用XLA編譯器、高效Pod架構、液冷數據中心、軟硬件深度共設計,硬生生蹚出一條差異化道路。
2021年,TPU v4橫空出世,第一次把4096顆芯片組成一個超節點,靠自研的環形拓撲網絡(2D/3D torus)實現近乎無損的跨芯片通信。這套系統讓數千顆加速器像一顆“巨型芯片”一樣協同工作,直接把谷歌帶入超大規模AI時代,PaLM 540B模型正是在v4 Pod上訓練完成的。
谷歌用實際行動證明:只要集群規模夠大、互聯效率夠高,模型性能就會隨著計算量近乎線性增長,而TPU的網絡拓撲和調度系統,正是實現這一規律的最關鍵硬件支撐。
2023到2024年,TPU v5p成為轉折點。
它首次大規模進入谷歌廣告系統、搜索核心排序、YouTube推薦、地圖實時預測等賺錢產品線,性能較v4翻倍,同時推出彈性節點架構,讓企業客戶可以按需擴展到近9000顆芯片的規模。
Meta、Anthropic等頭部模型公司開始認真評估并采購TPU v5p,這標志著TPU終于從“內部黑科技”成長為“生態可選項”。
2024年發布的第六代TPU v6(代號Trillium)則徹底亮明態度:谷歌未來的主戰場不再是訓練,而是推理。推理成本正在成為全球AI公司最大的單項支出,v6從架構到指令集全部圍繞推理負載重新設計,FP8吞吐暴漲、片上SRAM容量翻倍、KV Cache訪問模式深度優化、芯片間帶寬大幅提升,能效比上一代提升67%。
谷歌公開表示,這一代TPU的目標是成為“推理時代最省錢的商業引擎”。
從2015年為了解決AI計算的效率瓶頸被迫自研,到2025年即將把TPU部署到客戶自有數據中心,谷歌用十年時間,把一個“不得不做的救命項目”,一步步打造成可能撼動英偉達霸權的戰略級武器。
TPU從來不是為了和誰比性能,而是為了讓AI真正跑得起、賺得到錢。這正是谷歌與眾不同的打法,也是它最可怕的地方。
02從“實驗項目”到“數據中心命脈”
![]()
TPU v7,代號Ironwood
2025年,谷歌推出的第七代TPU(TPU v7,代號Ironwood)成為全球AI基礎設施領域最受關注的硬件產品。
這一代在架構、規模、可靠性、網絡與軟件系統上的一次全面重構。
Ironwood的誕生,正式宣告TPU從“追趕者時代”邁入“進攻時代”,也標志著谷歌將推理時代視為未來十年的決戰主戰場。
Ironwood之所以特殊,首先在于它是TPU歷史上第一款專用推理芯片。與此前以訓練為主的v5p和以能效為主的v6e不同,Ironwood從第一天起就鎖定超大規模在線推理這一終極場景,并在多項關鍵指標上首次與英偉達Blackwell系列實現正面交鋒。
單芯片層面,Ironwood的FP8稠密算力達到4.6 petaFLOPS,略高于Nvidia B200的4.5 petaFLOPS,已躋身全球旗艦加速器第一梯隊。內存配置為192GB HBM3e,帶寬7.4 TB/s,與B200的192GB/8 TB/s僅一步之遙。芯片間通信帶寬9.6 Tbps,雖數字上不及Blackwell的14.4 Tbps,但谷歌走的是一條完全不同的系統級道路,單純數值對比已失去意義。
真正讓Ironwood成為里程碑的,是其超大規模擴展能力。
一個Ironwood Pod可集成9216顆芯片,構成一個超節點,FP8峰值性能超過42.5 exaFLOPS。谷歌在技術文檔中指出,在特定FP8負載下,該Pod性能相當于最接近競品系統的118倍。這不是單芯片差距,而是系統架構與拓撲設計的碾壓。
支撐這一規模的核心,是谷歌十年磨一劍的2D/3D環面拓撲結合光路交換(OCS)網絡。
與英偉達依賴NVLink+高階交換機構建的NVL72(僅72顆GPU)不同,谷歌從根本上放棄了傳統交換機為中心的設計,轉而用三維環面拓撲結構直接連接所有芯片,并通過OCS實現動態光路重構。
OCS本質上是一套“光版人工電話交換臺”,利用MEMS微鏡在毫秒級完成光信號物理切換,幾乎不引入額外延遲,更重要的是,當集群內出現芯片故障時,OCS能瞬間繞開壞點,保持整個計算域不中斷。
得益于此,谷歌液冷Ironwood系統的年可用性達到99.999%,即全年停機時間不到六分鐘。這一數字在超大規模AI集群中堪稱恐怖,遠超業界基于GPU的訓練集群常見水平。
谷歌已將TPU集群從“實驗玩具”徹底升級為“數據中心命脈”。
在推理場景下,Ironwood展現出系統級的降維打擊能力。整個節點提供1.77 PB高帶寬HBM,所有芯片均可近乎等距訪問,這對KV緩存管理至關重要。推理時代最貴的不是算力,而是內存帶寬和緩存命中率,Ironwood通過共享巨量高速內存和極低通信開銷,大幅減少重復計算。
內部實測顯示,同等負載下Ironwood的推理成本較GPU旗艦系統低30%-40%,極端場景下更高。
軟件層面同樣火力全開。MaxText框架全面支持最新訓練與推理技術,GKE拓撲感知調度可根據Pod內實時狀態智能分配任務,推理網關支持前綴緩存感知路由。綜合優化后,首Token延遲最高下降96%,整體推理成本再降30%。
Ironwood不僅推動Gemini系列繼續領跑,也直接撬動外部生態。
Anthropic宣布未來Claude系列的訓練與部署將使用多達一百萬顆TPU。即使擁有AWS Trainium等備選方案的玩家,也無法忽視Ironwood在超大規模推理上的代際優勢。
03谷歌、英偉達、亞馬遜,站在“三岔路口”
![]()
CNBC在對AI芯片領域三大玩家——谷歌、英偉達和亞馬遜——進行分析后指出,三者都在大規模投入研發,但它們追求的目標、商業模式、生態構建方式、硬件哲學均有顯著不同。
這些差異深刻影響了芯片的形態、性能側重點、客戶采用路徑以及市場地位。
英偉達的路線始終圍繞GPU推進,而GPU的核心價值在于通用性。
GPU具備海量并行計算單元,能夠支持從深度學習到圖形渲染再到科學計算等多種工作負載。更重要的是CUDA生態幾乎鎖死了全行業的開發路徑,一旦模型或框架為CUDA優化,就很難切換到其他芯片架構。
英偉達通過軟硬件深度捆綁實現了類似蘋果生態在消費品市場的壟斷能力,但GPU的缺陷也十分明顯。
首先,GPU并非為推理優化,它的設計初衷是高速并行計算,而不是以最低成本執行重復推理指令。其次,GPU的靈活性意味著其硬件資源在實際推理場景中可能并非最優配置,導致單位能耗的效率不如ASIC。最后,英偉達的定價權極高,云廠商往往需要以遠高于制造成本的價格購入GPU,形成今天廣為人知的“英偉達稅”。
谷歌的路線與英偉達不同。谷歌并不追求硬件通用性,而是追求深度學習特別是Transformer負載的極致效率。TPU的核心是脈動陣列,這是一種專門為矩陣乘法設計的架構,使其在深度學習計算中特別高效。
谷歌不是希望TPU成為行業通用芯片,而是成為全球AI推理和訓練最具效能的專用芯片,進而讓谷歌整個AI系統做到性能領先、成本最低、部署最廣。
谷歌的核心優勢在于全棧整合能力。他們不僅控制芯片,還控制模型、框架、編譯器、分布式訓練系統與數據中心基礎設施。這讓谷歌可以做出許多GPU無法實現的系統級優化。
例如數據中心網絡拓撲完全為TPU超節點服務,軟件層面的調度系統能根據模型特性自動調整硬件資源的使用方式。這種“系統級一體化”是英偉達無法做到的,因為英偉達只能控制GPU,而不能控制客戶的數據中心。
亞馬遜則走了第三條路線,其芯片戰略出發點是降低AWS的基礎設施成本,同時減少對外部供應商尤其是英偉達的依賴,因此他們開發了Trainium和Inferentia。
作為云廠商,AWS關注的是規模效應與經濟性,而非像谷歌那樣構建一個統一的AI算力體系。
Trainium的設計更靈活,在不少情況下接近GPU的適配能力,但性能針對訓練和推理分別做了優化。Inferentia則聚焦推理,適合高吞吐部署場景。亞馬遜通過芯片降低內部成本并將節省部分反饋給客戶,從而提升AWS的競爭力。
總體而言,英偉達的路線是通用、生態驅動、軟件鎖定;谷歌的路線是專用、垂直整合、系統統一;亞馬遜的路線是成本優化、云驅動、兼容商業需求。三者的路線差異導致了AI芯片市場中出現了截然不同的產品形式、商業策略與競爭格局。
04利用TPU,告別昂貴的“CUDA稅”
![]()
谷歌之所以能夠在推理時代獲得顯著優勢,關鍵并不僅僅在于TPU的硬件性能,更在于其全棧垂直整合策略。
這種策略讓谷歌避免了昂貴的“CUDA稅”,并在成本結構上相對于OpenAI和其他依賴GPU的企業形成了巨大優勢。
所謂CUDA稅,是指GPU芯片從生產到銷售過程中所疊加的高額利潤。
英偉達的GPU成本大約僅幾千美元,但賣給云廠商時價格往往動輒數萬美元不等,毛利率高達八成以上。全球所有訓練大模型的科技公司幾乎都要支付這項成本,并且無法擺脫。
OpenAI依賴英偉達GPU進行訓練和推理,且由于GPT系列模型參數規模巨大、推理量龐大,其總體算力開支遠超大多數企業的總營收。
英偉達的定價模式使這些公司無論怎么優化模型,都難以實現規模化商業利潤。
谷歌的策略完全不同。谷歌采用自研TPU進行訓練和推理,整個供應鏈由谷歌控制,從芯片設計到制造、從網絡方案到軟件棧再到數據中心布局,全部由谷歌內部優化。
由于不需要支付英偉達稅,谷歌的算力成本結構天生比OpenAI更具優勢。
谷歌不僅在內部獲得低成本,還將這種成本優勢傳遞給谷歌云的客戶。通過TPU服務,谷歌可以為客戶提供更低價格的推理能力,從而吸引大量模型公司和企業遷移到谷歌平臺。
根據科技網站venturebeat.com的報道,谷歌在算力成本上的結構性優勢遠遠優于OpenAI。這意味著,谷歌提供同等推理服務時,其底層成本可能僅為對手的兩成。如此大的成本差異在推理時代具有決定性意義。
當企業的推理成本占到其支出的大部分時,遷移到成本最低的平臺就成為必然選擇。例如,一個企業每年可能在推理上消耗數千萬美元甚至上億美元,如果遷移到TPU可以節省三到五成成本,那么遷移幾乎是一種不可回避的商業決策。
谷歌還推出了TPU@Premises計劃,將TPU直接部署在企業數據中心,使客戶可以在本地以最低延遲使用推理能力。這再次強化了谷歌的成本優勢,進一步擴大TPU的商業輻射范圍。
在OpenAI的商業模式中,其最重要的成本來自算力,而在谷歌的商業模式中,其算力成本是自研產品體系的一部分,可以通過谷歌云收回投資。谷歌在硬件、軟件、網絡和云基礎設施上的深度融合,使其具備真正意義上的垂直整合能力。
這種整合不是簡單節省成本,而是在推動整個生態的重新配置。
隨著越來越多企業意識到推理成本的重要性,谷歌的成本優勢將不斷被放大,TPU的市場份額也將在推理時代獲得更快增長。TPU的垂直整合策略最終不僅是谷歌的競爭策略,更是對整個行業競爭秩序的重塑力量。
05谷歌的“經濟支柱”
回顧TPU的發展史,可以看到一個典型的“追趕到領先”的演變軌跡。
早期TPU在生態成熟度、兼容性和訓練性能方面落后于GPU,外界普遍認為谷歌在AI大模型時代被OpenA 超越。然而這種外部印象忽略了谷歌在基礎設施層面的深度積累,也忽略了谷歌在全棧系統上的獨特優勢。
隨著Gemini系列模型逐代升級,谷歌逐步證明自己仍然是全球少數可以實現訓練穩定性、推理成本控制和全棧性能優化的公司,TPU在其中扮演了關鍵角色。
Gemini 2.0多模態模型的訓練和推理都在TPU上完成,而TPU的高效能使谷歌能夠以相對低成本訓練大規模模型,使模型迭代周期更短、成本更低。
隨著公司進入推理時代,TPU的作用從支持谷歌內部模型轉向支持全球企業客戶。谷歌云的AI收入隨之大幅增加,云部門的財報顯示全年化收入達到440億美元,并成為谷歌整體業績增長的重要驅動力。
谷歌在云市場的競爭地位長期落后于AWS和Azure,但在AI時代出現了新的賽道,在AI基礎設施方面實現領先。這一領先并非偶然,而是TPU多年積累后的自然結果。
在企業AI采用加速的大背景下,越來越多公司需要推理成本低、穩定性高、性能強的模型部署方案。GPU雖然性能強,但成本和供貨都存在限制,而TPU提供了更具經濟性和穩定性的替代方案。尤其在大規模在線推理場景中,TPU的優勢尤為明顯。
更重要的是,谷歌并非只以芯片作為賣點,而是以整體解決方案吸引企業。
例如谷歌提供從模型訓練、模型監控、向量數據庫、推理服務到數據安全的一體化體系,TPU在其中作為最底層基礎設施發揮作用。谷歌將自己塑造為企業采用AI的完整平臺,使其與AWS和Azure在差異化競爭中獲得新的優勢。
未來幾年,AI行業的競爭將從模型維度轉向成本維度,從訓練能力轉向推理規模,從生態構建轉向基礎設施整合。谷歌憑借 TPU、全球數據中心布局、代際升級節奏和全棧能力,有望在這一新周期中構建比過去十年更牢固的競爭壁壘。
谷歌從追趕者轉向領先者的過程并非一蹴而就,而是在十年時間里持續投入基礎設施、堅持自研、不斷調整模型路線的結果。TPU是谷歌在AI時代構建的最長久、最深層、最具戰略意義的資產,而這一資產正在成為推動谷歌市值增長、云業務崛起和AI商業模式重塑的主力引擎。
本文作者無忌,首發于公眾號“騰訊科技”(ID:qqtech),歡迎關注。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.