絕大多數(shù)人被英偉達(Nvidia)股價的狂歡蒙蔽了雙眼,認為GPU是AI時代的終極答案。但事實可能恰恰相反。谷歌剛剛發(fā)布的Gemini 3在各項基準測試中霸榜,而訓練這個史上最強模型的,并非英偉達的GPU,而是谷歌自研的TPU。
這不僅僅是兩家公司的商業(yè)競爭,本質上,這是“全能工匠”與“流水線”在物理極限上的一次碰撞。
![]()
深入淺出讓你明白TPU與GPU區(qū)別
為什么英偉達的GPU在面對谷歌TPU時,會顯得“笨重”?要理解這一點,我們不需要復雜的計算機架構圖,只需要理解一個熱力學概念:數(shù)據(jù)搬運的能耗。
你可以把英偉達的GPU想象成一個塞滿了成千上萬個頂級大廚的超級廚房。這些大廚(CUDA核心)全是通才,左手能做精美的圖形渲染(切菜),右手能搞科學計算(炒菜)。
但這個廚房有一個致命的架構缺陷——馮·諾依曼瓶頸。
在GPU的傳統(tǒng)架構里,工作流程是這樣的:
- 幾千個大廚聽到指令。
- 所有人同時沖向巨大的冰柜(內存/顯存)去拿一顆蔥。
- 跑回案板切一刀。
- 再跑回冰柜把蔥放回去。
- 如果需要切第二刀,重復上述過程。
![]()
聽起來是不是很荒謬?但這正是GPU并行工作的原理。這些“大廚”在大部分時間里,并不是在計算(切菜),而是在內存和計算單元之間進行瘋狂的“折返跑”。
在物理學上,這種信息的移動是有代價的。數(shù)據(jù)中心的風扇呼呼作響,電表蹭蹭上漲,大部分能量并沒有用來產生智能,而是變成了廢熱。這就是熵增。
谷歌的TPU(張量處理單元)做了一個極端的減法。
TPU是一個嚴重的“偏科生”。它不會渲染游戲畫面,不能做通用計算,它從誕生那天起只做一件事:矩陣運算。因為目標單一,谷歌為它設計了一種名為“脈動陣列”(Systolic Array)的架構。
這名字聽起來很玄幻,但原理極度簡單,它就是數(shù)據(jù)層面的流水線。
在TPU里,數(shù)據(jù)像血液一樣流動。第一個處理單元切完一刀,不跑回冰柜,而是直接順手遞給旁邊的第二個單元;第二個切完遞給第三個……數(shù)據(jù)在芯片內部一步步被榨干價值,中間完全不需要訪問內存。
這就叫數(shù)據(jù)復用(Data Reuse)。
![]()
這意味著,做同樣的算術題,英偉達的大廚跑了十趟冰柜,累得氣喘吁吁(高能耗);而谷歌的流水線工人在原地動動是指頭就搞定了(低能耗)。在單芯片時代,這點電費微不足道;但當你把幾萬顆芯片連在一起,日夜不停地訓練像Gemini 3這樣的大模型幾個月時,能耗的差異就變成了天文數(shù)字的成本差異。
74%的“過路費”與谷歌的陽謀
物理層面的降維打擊,最終會映射到商業(yè)層面的血腥屠殺。
華爾街現(xiàn)在看著英偉達的財報狂歡,但谷歌在看這財報時,看到的是巨大的套利空間。我們來看一組核心數(shù)據(jù):英偉達的毛利率約為74%。
這意味著什么?意味著微軟、Meta、亞馬遜每花100塊錢買英偉達的卡,只有26塊錢是付給了臺積電的代工費和物料成本,剩下的74塊錢,是交給黃仁勛的“AI時代過路費”。
如果你是谷歌,你要訓練Gemini 3:
- 方案A(用英偉達):你必須頂著74%的溢價燒錢,這是極高的資本支出(CapEx)
- 方案B(用自研TPU):芯片設計自己搞,只需付給臺積電代工費。這74%的利潤,全部留在了自己兜里。
這就是為什么谷歌敢宣稱其TPU算力性價比是GPT-4o的24倍。這不完全是算法的奇跡,這是商業(yè)模式對物理成本的極致壓榨。谷歌是在貼著成本價跑,而競爭對手是在頂著高昂的溢價跑。
那么問題來了,既然TPU這么便宜又好用,谷歌為什么不把它像顯卡一樣賣給大眾?
這正是谷歌最高明、也最“雞賊”的地方:把肉爛在鍋里。
谷歌不賣鏟子(芯片),它賣的是“挖洞服務”(云算力)。
英偉達作為硬件廠商,必須把鏟子做得通用,還得維護龐大的銷售渠道。而谷歌的策略是:想用TPU?沒問題,來Google Cloud租服務器。
這一招極其兇狠:
- 廣告效應:用Gemini 3的強悍性能作為TPU的最佳廣告(Look,最強模型是用TPU訓出來的)。
- 客戶鎖定:吸引Anthropic、Midjourney等頭部玩家進入谷歌云生態(tài)。
- 避開鋒芒:避開了英偉達最堅固的護城河——CUDA
英偉達真正的壁壘不是芯片,而是過去15年幾百萬程序員用一行行代碼堆出來的CUDA軟件生態(tài)。這道“嘆息之墻”讓無數(shù)想造芯片的公司望而卻步。但谷歌通過“只租不賣”的云服務模式,在云端屏蔽了底層硬件的差異,讓用戶在不知不覺中繞過了CUDA的壁壘,直接使用TPU的算力。
4. 結語:進化的宿命
我們正處在一個計算架構大遷徙的前夜。
這不僅是谷歌與英偉達的戰(zhàn)爭,更是通用計算與專用計算的周期律。在生物學中,單細胞生物往往是全能的,但隨著生命體變得復雜,必然演化出心臟、肝臟、大腦等高度專用的器官。
英偉達的GPU就是那個全能的單細胞,在AI爆發(fā)初期,它的靈活性至關重要。但在AI模型參數(shù)邁向萬億、十萬億級別的今天,能源效率和成本控制成了生死的關鍵。這時候,像TPU這樣高度進化的“專用器官”,在物理定律的加持下,展現(xiàn)出了難以抗拒的優(yōu)勢。
英偉達并沒有輸,它依然占據(jù)著90%的市場,CUDA依然堅不可摧。但谷歌正拿著一把名為“能效比”的鏟子,試圖挖開這道墻角。
對于我們人類而言,這或許是一個啟示:當一個行業(yè)發(fā)展到極致,競爭的本質不再是“誰能做更多的事”,而是“誰能以更低的熵增,完成最重要的事”。
我是樗散生,不懂這個“樗”字怎么讀,你也可以叫我廢柴兄,我們下期見。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.