Jay 發(fā)自 凹非寺量子位 | 公眾號 QbitAI
老黃穩(wěn)準狠,谷歌的TPU威脅剛至,就鈔能力回應(yīng)了。
200億美元說砸就砸,只為拉攏一家炙手可熱的「鏟子新工廠」——Groq
這無疑也標志這家芯片巨頭,面向AI新時代的一次重大布局。但在某種程度上,也的確反映出老黃對包括TPU在內(nèi)等一眾新芯片范式的擔(dān)憂。
所以,Groq究竟能為英偉達帶來什么?
針對這個問題,知名科技投資人Gavin Baker發(fā)表了自己的觀點。
而他的這一連串技術(shù)剖析,紛紛指向了英偉達帝國防守最薄弱的那塊領(lǐng)土——推理
- 推理方面,Groq LPU的速度遠超GPU、TPU,以及目前所見的任何ASIC。
![]()
這一觀點得到大量網(wǎng)友點贊:
- GPU架構(gòu)根本無法滿足推理市場對低延遲的需求,片外HBM顯存速度實在太慢了。
![]()
但也有網(wǎng)友指出,LPU所采用的SRAM,或許并不能勝任長下文decode。
對此,Gavin認為英偉達可以通過產(chǎn)品「混搭」的方式解決。
![]()
下面具體來看——
Groq:英偉達斥200億美元購入的一劑疫苗
Gavin認為,GPU在新時代水土不服的根本原因在于——推理過程的兩個階段,prefill和decode,對芯片能力有截然不同的要求。
先看prefill:
這一步,簡單來說就是讓模型「讀題」,把用戶提供的關(guān)鍵信息在腦子里記好,用于后續(xù)調(diào)用。
讀題過程中,模型會一次性吃下用戶所給的上下文,所有輸入token都可以同時計算。
這正是GPU最擅長的舞臺,其為圖形處理而生,可以一次性計算數(shù)千個像素,天生適合處理并行任務(wù)。
在這個準備階段,模型不用急著響應(yīng)用戶問題。即便有延遲,模型也完全可以通過顯示「思考中」來掩蓋等待時間。
因此,相比「速度」,prefiil需要芯片有更大的上下文容量。
但到了decode,這套邏輯不再適用。
decode是串行任務(wù),必須得一個一個token挨著算。更重要的是,用戶還會親眼看到token被一個個「打」出來的過程。這種情況下,延遲對用戶體驗來說是致命的。
然而,GPU的數(shù)據(jù)主要存放在HBM,而不是緊貼算力核心的片上存儲。這意味著,每生成一個token,GPU都需要重新從內(nèi)存中讀取數(shù)據(jù)。
這時候,GPU的問題就暴露出來了——大部分算力都處于閑置,F(xiàn)LOPs根本用不滿,常常在等內(nèi)存把數(shù)據(jù)搬過來,實際計算量遠小于prefill。
![]()
相比之下,Groq有更好的解決方案——LPU
比起HBM,LPU使用直接集成在芯片硅片中的SRAM。這種片上存儲的模式不需要讀取數(shù)據(jù),這讓其速度比GPU快100倍。即使只處理單個用戶,它也能跑出每秒300–500個token的速度,并能始終保持滿負荷運轉(zhuǎn)。
事實證明,在速度這一塊,LPU幾乎打遍天下無敵手——不僅是GPU,就連TPU,以及市面上絕大多數(shù)ASIC都難以望其項背。
但這并非沒有代價的。
相比GPU,LPU的內(nèi)存容量小的多。單顆Groq的LPU芯片,片上SRAM只有230MB。
作為對比,即便是英偉達的H200 GPU,也配備了高達141GB的HBM3e顯存。
結(jié)果就是:你必須把成百上千顆LPU芯片連在一起,才能跑起一個模型
以Llama-3 70B為例,用英偉達GPU的話,只需要兩到四張卡,塞進一個小型服務(wù)器盒子里就能搞定。而同樣的模型,需要數(shù)百顆LPU,占地面積也將遠大于使用GPU的數(shù)據(jù)中心。
這意味著,即便單顆LPU價格更低,整體硬件投資依然會非常巨大。
因此,AI公司在考慮LPU時,最重要的問題是——
用戶是否愿意為「速度」付費?

對于這個問題,一年前的市場還不無法給出答案。但從Groq如今的業(yè)績情況來看已經(jīng)非常明確:「速度」是個真實存在的巨大需求,并且仍在高速成長
而對英偉達而言,這不僅是一個新的業(yè)務(wù)盤,更是一個顛覆者暗流涌動的高風(fēng)險地帶。倘若錯失這個風(fēng)口,英偉達在AI時代的機會可能會被新玩家顛覆,就像英偉達當年通過游戲業(yè)務(wù)顛覆其他競爭對手一樣。
為了抵抗這些競爭者蠶食自己的護城河,英偉達選擇注射名為Groq的疫苗。希望通過人才收購引入新血液,補齊這塊低延遲場景的推理短板,幫助英偉達這艘巨艦擺脫創(chuàng)新者窘境。
「鏟子」進入新時代
TPU的崛起,給英偉達的金鐘罩撕開了一道裂縫。
通過自研芯片,谷歌成功擺脫了對英偉達天價GPU的依賴,這在很大程度上幫助谷歌削薄了訓(xùn)練和推理成本,這讓谷歌在服務(wù)大量免費用戶的情況下,依然能維持相當健康的財務(wù)賬面。
谷歌通過Gemini 3 Pro的絕地翻盤,證明了GPU并非AI時代的唯一解。在技術(shù)周期高速迭代的背景下,作為AI「心臟」的芯片,也需要根據(jù)不同的發(fā)展階段做出相應(yīng)的調(diào)整。
隨著基礎(chǔ)模型的進展放緩,AI競爭的重點開始從訓(xùn)練層轉(zhuǎn)向應(yīng)用層。而在AI應(yīng)用市場,「速度」對用戶體驗而言至關(guān)重要。
而這次人才收購Groq,雖然也是變相承認了公司在推理賽道的不足,但同樣標志著英偉達帝國的又一次擴張。
稱霸預(yù)訓(xùn)練的英偉達,這次要借Groq的東風(fēng),入局競爭對手噴涌而出的「推理大陸」。
而在這個新市場,英偉達或許不再能像如今這樣風(fēng)光。
正如Groq CEO所言,推理芯片是項高銷量、低利潤的苦活。這與即便炒到天價也有客戶搶著要,毛利率高達70-80%的GPU截然不同。
[1]https://x.com/gavinsbaker/status/2004562536918598000
[2]https://www.uncoveralpha.com/p/the-20-billion-admission-why-nvidia
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.