英偉達(NVIDIA)首席執行官黃仁勛,為其芯片團隊送上了一份出人意料的“圣誕大禮”——這家科技巨頭已與專業人工智能硬件制造商Groq公司達成合作協議。而雙方合作的絕非普通芯片,這或將成為英偉達搶占推理類算力市場主導地位的關鍵抓手。
要理解為什么這是一場“大師課”,我們需要審視兩個截然不同的維度分析:黃仁勛巧妙的用了監管漏洞,以及他所獲得的硬件主導地位。
看似收購,實則“非排他性合作”
美國消費者新聞與商業頻道(CNBC)率先披露這一重磅消息,稱英偉達正以200億美元(約1400億元人民幣)的天價“收購”Groq公司,這也將成為黃仁勛執掌英偉達以來規模最大的一筆收購案。消息一出,立刻在科技行業掀起軒然大波:有人認為這一交易將面臨嚴苛的監管審查,也有人直言Groq此番難逃被吞并的命運。然而不久后,Groq官方在其網站發布聲明,明確表示與英偉達簽署的是一份“非排他性技術授權協議”,僅向這家AI巨頭開放其推理技術的使用權。
我們計劃將
Groq
的低延遲處理器整合至英偉達
AI
工廠架構中,進一步拓展平臺的適用邊界,以滿足更廣泛的
AI
推理及實時性算力需求。本次合作中,我們確實吸納了
Groq
的核心人才,并獲得了其知識產權授權,但并未收購
Groq
公司本身。
英偉達
CEO
黃仁勛,內部郵件內容
Groq的聲明一出,這場看似“并購”的交易在官方層面便不攻自破。在筆者看來,整個事件的發展脈絡耐人尋味——這宗交易其實只差“在官方公告中明確定義為收購”這一步,就完全符合全面收購的所有特征。
這正是英偉達祭出的經典“反向人才收購”策略。對于不熟悉該策略的讀者,這里可以參考微軟2024年的操作案例:當時微軟以6.53億美元與Inflection公司達成合作,不僅將穆斯塔法·蘇萊曼、卡倫·西蒙婭等AI領域頂尖人才招致麾下,更借此一舉夯實了自身的AI戰略布局。
所謂“反向人才收購”,是指企業通過合作協議吸納初創公司的核心人才,同時保留對方“空殼化”的企業架構。這種模式的精妙之處在于,它能從法律層面規避“并購”的定性。此次黃仁勛顯然復刻了這一思路,目的就是避開美國聯邦貿易委員會(FTC)的審查——通過將合作定義為“非排他性技術授權”,英偉達成功脫離了《哈特-斯科特-羅迪諾反壟斷改進法案》(HSR Act)的監管范疇。值得玩味的是,Groq在聲明中提到旗下GroqCloud云計算平臺將繼續運營,但僅保留最基礎的運營架構。
綜上,英偉達以傳聞中的200億美元代價,斬獲了Groq的核心人才與知識產權,同時巧妙規避了監管審查,讓整筆交易在短短數天內便塵埃落定。而比交易本身更值得關注的,是英偉達通過此次合作獲得的硬件技術——這才是雙方合作的核心價值所在。
Groq的LPU架構:英偉達稱霸推理市場的“關鍵拼圖”
這正是筆者最想深入探討的部分。Groq打造的硬件生態,極有可能復刻英偉達在AI訓練時代的輝煌成就,以下將逐層拆解其底層邏輯。過去數月間,AI行業的算力需求格局發生了翻天覆地的變化:以OpenAI、Meta、谷歌為代表的科技巨頭,在深耕前沿大模型訓練的同時,紛紛加速布局高性能推理算力體系——原因很簡單,推理業務才是超大規模云計算服務商的核心盈利點。
此前谷歌推出Ironwood張量處理單元(TPU)時,曾被業界譽為“推理算力的最優解”,這款專用集成電路(ASIC)甚至一度被視作英偉達的“替代者”。究其原因,外界普遍認為英偉達當時尚未推出一款能夠主導推理吞吐量的標桿產品(盡管英偉達已有Rubin CPX系列產品,但下文將具體分析其局限性)。
![]()
要理解這一點,首先要明確:訓練與推理的算力需求存在本質差異。模型訓練階段,行業更看重算力吞吐量、高運算密度,這也是為何現代加速器普遍搭載高帶寬內存(HBM)和大規模張量計算核心。
但當超大規模云計算服務商將重心轉向推理業務時,市場對算力的需求就轉變為高速、穩定、前饋式的執行能力——畢竟,響應延遲才是推理場景的核心瓶頸。
為應對這一需求,英偉達推出了Rubin CPX系列產品,主攻超長上下文推理(包括預填充和通用推理)場景;谷歌則憑借TPU主打高能效比優勢。然而,在模型解碼這一關鍵環節,市場上的優質解決方案卻寥寥無幾。
解碼,指的是Transformer大模型推理過程中的“token生成階段”,如今已成為劃分AI算力負載類型的核心維度。該環節對算力的核心要求是確定性與低延遲,而傳統推理硬件普遍采用的HBM技術,恰恰存在延遲高、功耗大的短板。正是瞄準這一痛點,Groq推出了獨創的解決方案——基于靜態隨機存取存儲器(SRAM)的算力架構。在剖析其技術優勢前,我們先明確:當前AI推理算力市場,正迫切需要一種全新的技術路徑。
Groq LPU:破解解碼延遲難題,實現極致token生成穩定性
LPU(語言處理單元)由Groq前首席執行官喬納森·羅斯主導研發——值得一提的是,隨著本次合作落地,羅斯已正式加盟英偉達。羅斯曾深度參與谷歌TPU架構的研發工作,由此可見,英偉達此番收獲的是一筆足以改寫市場格局的核心資產。
作為Groq專為推理類算力負載打造的解決方案,LPU的核心競爭力源于兩大技術決策:確定性執行機制與片上SRAM作為權重數據主存儲介質。這正是Groq實現“以穩定性換速度”的底層邏輯。
![]()
此前Groq曾對外展示過兩款核心產品:自研的GroqChip芯片,以及與合作伙伴聯合開發的GroqCard加速卡。根據官方披露的參數,這類芯片集成了230MB的片上SRAM,片上內存帶寬高達80TB/s。
采用SRAM是LPU的核心技術優勢,這使其延遲水平較傳統方案降低了數個數量級。對比HBM技術:傳統架構需要通過DRAM存取數據,再加上內存控制器的隊列等待時間,延遲劣勢十分明顯,而SRAM在這方面的優勢堪稱碾壓。超大的片上SRAM帶寬,讓Groq得以實現遠超行業平均水平的推理吞吐量。
除此之外,SRAM還賦予了LPU高能效比的優勢:訪問SRAM的單位比特能耗遠低于HBM,同時還能省去物理層(PHY)的額外開銷。對于內存密集型的解碼任務而言,這意味著單位token生成能耗的大幅優化。
![]()
以上是LPU的架構優勢,但這只是其技術實力的冰山一角。另一大核心競爭力,在于其編譯期調度機制——該機制可徹底消除不同計算核心間的時序差異,確保解碼流水線的零延遲等待。這一特性帶來了極致的流水線利用率,讓LPU的吞吐量遠超當前主流加速器產品。
綜合來看,LPU是一款完全貼合超大規模云計算服務商推理需求的硬件產品,但目前行業對其存在一個普遍忽視的短板:LPU雖是性能卓越的推理專用硬件,但因功能高度專用化,尚未成為市場主流算力平臺。而這,恰恰是英偉達的機會所在。
盡管目前英偉達尚未公布LPU與自身產品生態的整合方案,但一個極具可行性的路徑是:將LPU納入機架級推理系統(類似Rubin CPX的部署模式),并搭配英偉達的高性能網絡基礎設施。通過這種組合,英偉達可以實現“GPU負責預填充與長上下文處理,LPU專攻解碼任務”的協同模式——如此一來,英偉達將在推理算力市場實現全場景覆蓋。這一整合,不僅能讓LPU從一款實驗性產品升級為行業標準推理方案,更能推動其在超大規模云計算服務商中實現全面普及。
![]()
毫無疑問,這筆交易是英偉達拓展產品版圖的里程碑式成就。種種跡象表明,推理業務將成為英偉達下一階段的戰略核心,而LPU架構,正是英偉達在這一賽道制勝的關鍵王牌。
https://wccftech.com/no-nvidia-isnt-acquiring-groq-but-jensen-just-executed-a-surgical-masterclass
邀請函
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.