公眾號記得加星標(biāo)??,第一時間看推送不會錯過。
![]()
當(dāng)Meta Platforms與英偉達(Nvidia)達成大規(guī)模 AI 系統(tǒng)交易時,通常意味著該公司此前的某些開放硬件計劃已無法滿足緊迫的算力需求。這與項目延期不完全是一回事,但效果是一樣的。提醒一下,這類情況我們掌握的數(shù)據(jù)并不多,而如今這家社交網(wǎng)絡(luò)巨頭、AI 模型廠商與 AI 硬件巨頭英偉達之間宣布的巨額合作,已是第三起。
這筆交易遠(yuǎn)比 Meta 上一次與英偉達的合作規(guī)模更大,對英偉達而言價值至少數(shù)百億美元,再加上原始設(shè)計制造商將英偉達芯片集成到 Meta 系統(tǒng)中所能獲得的額外收益。
在前兩起案例中(幾乎可以確定第三起新案例也是如此),一旦 AI 算力需求足夠緊迫,Meta 便愿意放棄自家開放計算項目(OCP)的設(shè)計方案。
在超大規(guī)模云廠商與大模型廠商中,Meta 的定位略有不同:它不只是為搜索加入 AI 能力,或是打造能與 OpenAI、Anthropic 等抗衡的通用大模型,同時還高舉開源大旗(至少目前是這樣)。該公司還運營著龐大的高性能集群集群,作為旗下各類服務(wù)的推薦引擎。這些系統(tǒng)需要CPU 與加速器緊密耦合,讓加速器能直接訪問 CPU 內(nèi)存中存儲的高維嵌入向量,從而為每位用戶提供個性化推薦。英偉達將 CG100 CPU 與 H100 GPU 加速器結(jié)合的 “Grace?Hopper” 超級芯片,正是瞄準(zhǔn)這類推薦引擎場景設(shè)計的。
據(jù)我們所知,Meta 擁有大量此類設(shè)備。
可以確定的是,盡管 Meta 一直希望自研 AI 芯片 —— 從其 MTIA AI 推理芯片項目,以及收購 RISC?V CPU 與 GPU 廠商 Rivos 都能看出 —— 但 Meta 仍在英偉達身上投入了巨額資金:有時采購整系統(tǒng),有時采購 GPU、NVSwitch 互聯(lián)芯片,有時還擴展 InfiniBand 網(wǎng)絡(luò)。
當(dāng)初英特爾遲遲無法按時推出 “Ponte Vecchio” Max 系列 GPU,而 AMD 的 “Aldebaran” MI250X GPU 加速器又無法足量供貨以滿足 Meta 需求,Meta 別無選擇,只能與英偉達合作搭建其研究超級計算機(RSC),采用英偉達 “Ampere” A100 GPU,而非當(dāng)時即將推出的 “Hopper” H100 加速器。對 Meta 來說最致命的是:這兩款 GPU 都支持由微軟與 Meta 聯(lián)合定義的開放加速器模塊(OAM)接口,但由于供應(yīng)量不足,Meta 最終只能放棄自研的 “Grand Teton” CPU?GPU 系統(tǒng)。英特爾的 Gaudi 計算引擎同樣支持 OAM 模塊,但英偉達擁有自家 SXM 接口設(shè)計,以及配套 NVSwitch 架構(gòu)的系統(tǒng)板卡。
于是,英偉達拿下了這套2000 節(jié)點 RSC 超算的訂單。該系統(tǒng)搭載 4000 顆 AMD CPU 與 16000 顆英偉達 A100 GPU 加速器,合同于 2022 年 1 月簽訂,并在當(dāng)年分階段完成部署。
2022 年 3 月,Meta 終于披露其計劃投資 A100 與 H100 加速器,打造總算力超過 50 萬片 H100 等效算力的集群艦隊,其中包括兩套基于 Grand Teton 服務(wù)器平臺、各搭載 24576 顆 GPU 的集群:一套采用 Arista 的以太網(wǎng),另一套采用英偉達的 InfiniBand,明確要讓兩種交換架構(gòu)正面競爭。同年 5 月,為緊急補齊 AI 算力缺口,Meta 又與微軟達成協(xié)議,在 Azure 云上采購基于 NDm A100 v4 實例的虛擬超算資源,其節(jié)點配置與 Meta 采購的 RSC 系統(tǒng)非常接近。
顯然,Meta 最初并不想從英偉達大量采購 GPU。但風(fēng)向轉(zhuǎn)變得非常快。
更近一段時間,Meta 看似在試圖降低對英偉達的依賴:推出自研MTIA v2 推理加速器,并與 AMD 合作設(shè)計“Helios”O(jiān)pen Rack Wide 3 雙寬機架方案。其密度只有英偉達 GB200 NVL72、GB300 NVL72 機架系統(tǒng)所用 “Oberon” 機架的一半,但考慮到 Oberon 機架的重量與功耗密度極高,且未來 “Kyber” 機架還會進一步提升,這反而可能成為一項優(yōu)勢。
英偉達機架的高密度,很大程度上是為了滿足 NVSwitch 架構(gòu)的低時延需求,實現(xiàn)機架內(nèi) 72 顆 GPU 的顯存互聯(lián)。Helios 機架則通過以太網(wǎng)實現(xiàn) UALink 隧道,GPU 集群時延明顯更高 —— 部分原因也是 Helios 機架內(nèi)的銅纜更長。但無論如何,第一代 Helios 機架時延更高、帶寬更低是必然的,就像早年 AMD 與 Meta AI 節(jié)點設(shè)計中的 PCIe 交換,相比同期 NVSwitch 同樣時延更高、帶寬更低。
根據(jù)本周達成的協(xié)議,Meta 將采購英偉達的 CPU 與 GPU,并將自家 FBOSS 網(wǎng)絡(luò)操作系統(tǒng)移植到英偉達 Spectrum?X 交換 ASIC 及系統(tǒng)上。雙方未披露具體數(shù)量,但據(jù)稱 Meta 將采購數(shù)百萬片英偉達 Blackwell 與 Rubin GPU。細(xì)看細(xì)節(jié)可知:部分 GPU 將部署在 Meta 自有數(shù)據(jù)中心,另一部分(未披露比例)則將從英偉達(未具名的)云合作伙伴處租賃算力。這可能包括 AWS、微軟、谷歌、甲骨文等公有云,也可能是 CoreWeave、Crusoe、Lambda、Nebius 等新型 AI 云廠商。
初期部署將以GB300 系統(tǒng)為主 —— 不要直接等同于 GB300 NVL72 整機柜系統(tǒng) —— 這意味著優(yōu)先面向推理任務(wù),可能附帶少量訓(xùn)練。如果 Meta 正在研發(fā)大規(guī)模混合專家模型,那么其采購的英偉達設(shè)備可能會是 GB300 NVL72 整機柜系統(tǒng)。但我們相信,Meta 同時也希望繼續(xù)擴容 Grand Teton 服務(wù)器,或推出改進版 Grand Teton,以支持 HPC 領(lǐng)域流行的 NVL4 節(jié)點,或是過去更常見的 NVL8 節(jié)點,而 Grand Teton 本身就是很好的范例。
你會注意到,這份公告中完全沒有提到 InfiniBand。話已至此,Meta 顯然已經(jīng)做出了長期選擇。
這筆交易還包含英偉達所稱的 “首個大規(guī)模純 Grace 部署”,我們推測指的是 Grace?Grace 超級芯片。這款 144 核雙芯處理器運行頻率 3.2 GHz,通過 NVLink 端口構(gòu)成 NUMA 架構(gòu),在芯片內(nèi)置的 SVE 向量單元上可提供 7.6 GFLOPS 算力。
目前已有不少僅運行 CPU 代碼的 HPC 集群大量采用 Grace CPU,例如布里斯托大學(xué)最新的 “Isambard” 超算與德州大學(xué)的 “Vista” 超算。德州高級計算中心(TACC)正在建設(shè)的 “Horizon” 超算中,也有一大分區(qū)采用 88 核 Vera CPU。我們預(yù)計 TACC 將通過 4752 顆 Vera?Vera 超級芯片提供 836352 核、FP64 精度下 131.8 PFLOPS 的算力,這是我們已知規(guī)模最大的基于英偉達 Arm 服務(wù)器芯片的純 CPU 集群。英偉達與 Meta 表示,雙方正在合作研究 Meta 如何部署純 Vera 算力,并有望在 2027 年進行大規(guī)模落地。
有一件事會很有意思(但大概率不會發(fā)生):Meta 與英偉達合作,把英偉達 CPU、GPU、DPU 和交換 ASIC 放進Helios 機架里。這在技術(shù)上并非不可行,但可能需要推出 OAM 版本的 Rubin GPU,以及略有調(diào)整的 Vera GPU 設(shè)計,以支持更多 GPU 與一顆 CPU 互聯(lián)。不少人都質(zhì)疑過,為什么 Grace?Hopper 是 1:1 搭配、Grace?Blackwell 是 1:2 搭配,而對很多工作負(fù)載來說,2:8 的配比或許才是最優(yōu) —— 就像 Meta 在 Grand Teton 設(shè)計中采用的方案,以及英偉達多代 DGX/HGX 服務(wù)器板卡的經(jīng)典架構(gòu)。
本次合作涉及的金額并未公布,這很可能是因為它既包含向英偉達采購硬件,也包含從公有云 / 新型 AI 云租賃算力,具體比例很大程度上取決于 Meta 的預(yù)算結(jié)構(gòu),以及其在自有數(shù)據(jù)中心之外能分配多少運營預(yù)算。
假設(shè)這是一個逐年放量的合同 ——GPU 數(shù)量逐年增長 —— 總規(guī)模達到 200 萬到 300 萬顆。如果全部采用 GB300 算力集群,單套 GB300 NVL72 機柜成本超過 400 萬美元,那么采購 200 萬到 300 萬顆 GPU 的總價值大約在1100 億到 1670 億美元之間。Meta 希望盡可能少租算力,因為租賃模式無法利用其重金建設(shè)的自有數(shù)據(jù)中心,而且四年周期內(nèi),租賃 GPU 成本是直接購買的 4~6 倍。
在不清楚 Meta 采購與租賃比例的情況下,我們無法給出精確估算。但可以提醒的是:租賃算力屬于運營支出,不計入資本支出預(yù)算,而 Meta 2026 年的資本支出預(yù)算預(yù)計為 1250 億美元。
由此你就能明白,為什么所有超大規(guī)模云廠商與云服務(wù)商都希望擁有自研 CPU 與 XPU—— 包括 Meta 在內(nèi)。有傳聞稱,Meta 還在與谷歌洽談租用 TPU 算力,并最終希望在自有系統(tǒng)中用上自研 TPU。這筆交易與 Anthropic 和谷歌達成的合作如出一轍。
https://www.nextplatform.com/2026/02/18/some-game-theory-on-that-nvidia-meta-platforms-partnership/
(來源:nextplatform)
*免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個人觀點,半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達一種不同的觀點,不代表半導(dǎo)體行業(yè)觀察對該觀點贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。
今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4322期內(nèi)容,歡迎關(guān)注。
加星標(biāo)??第一時間看推送
求推薦
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.