談?wù)凪eta的芯片路線圖

2026-04-09 09:21:02　來源: 半導(dǎo)體行業(yè)觀察

上海舉報

分享至

公眾號記得加星標(biāo)??，第一時間看推送不會錯過。

除了顯而易見的“功能越多越好”之外，很難預(yù)測五年后的人工智能計算引擎會是什么樣子。而且，當(dāng)人工智能模型的更新速度超過芯片開發(fā)周期時，任何大型模型構(gòu)建商以及任何大規(guī)模運行人工智能推理的機構(gòu)都必須采取多產(chǎn)品、多來源、多供應(yīng)商的策略，以應(yīng)對未來人工智能計算引擎可能出現(xiàn)的任何延遲或所需功能缺失。

如果你瞇起眼睛仔細(xì)觀察 Meta Platforms，你會發(fā)現(xiàn)它的業(yè)務(wù)是在龐大的社交網(wǎng)絡(luò)上運行排名和推薦引擎，這些社交網(wǎng)絡(luò)包含海量的用戶自定義內(nèi)容。這些排名和推薦應(yīng)用最初是由運行在大量 CPU 上的算法集合構(gòu)成，最終通過運行在 GPU 加速器上的機器學(xué)習(xí)算法進(jìn)行了增強——也就是所謂的深度學(xué)習(xí)推薦模型（DRLM）。

這些數(shù)字線性模型（DLRM）與谷歌、OpenAI 和 Anthropic 開發(fā)的大型語言模型截然不同，它們所需的硬件也大相徑庭。DLRM 與語言模型（LLM）一樣，將數(shù)據(jù)轉(zhuǎn)換為向量，但它們創(chuàng)建的是一個巨大的多維向量空間，可以用來展示事物之間的關(guān)聯(lián)——例如，F(xiàn)acebook 上喜歡貓咪視頻的用戶與 Instagram 上新發(fā)布的貓咪視頻之間的關(guān)聯(lián)——而無需使用圖算法將它們直接連接起來。從這個意義上講，它是預(yù)測性的，而非確定性的，而這對于全球最大的廣告商之一來說，無疑是一項非常強大的功能。

問題在于，要創(chuàng)建一個足夠大的內(nèi)存空間，供數(shù)十億用戶進(jìn)行數(shù)萬億甚至數(shù)千萬億次操作，這本身就是一項艱巨的任務(wù)。即使將現(xiàn)實簡化為一堆浮點向量，以便建立關(guān)聯(lián)并推斷關(guān)系，其規(guī)模仍然會迅速增長。Meta Platforms 決定將這項任務(wù)分成兩部分：配備高速 HBM 的 GPU 存儲嵌入表中“熱門”的相關(guān)部分，其余部分則交給配備大容量 DRAM 的 CPU 存儲。早在 2022 年 10 月，我就詳細(xì)分析了 Meta Platforms 設(shè)計的“Zion”、“ZionEX”和“Grand Teton”混合 CPU-GPU 系統(tǒng)，指出 DLRM 與當(dāng)時的 LLM 一樣，都需要大量的參數(shù)和浮點運算。我還詳細(xì)介紹了 Meta Platforms 如何創(chuàng)建了一個名為“Neo”的內(nèi)存管理程序，該程序不僅可以在節(jié)點內(nèi)的 CPU 和 GPU 內(nèi)存層次結(jié)構(gòu)中，而且還可以在機器集群中對參數(shù)和嵌入進(jìn)行分級。

顯而易見，Meta Platforms 非常擅長構(gòu)建運行 R&R 訓(xùn)練和 R&R 推理的 DLRM 系統(tǒng)架構(gòu)，但在計算引擎的選擇上卻完全沒有掌控權(quán)。從某種意義上說，配備強大高速 NVLink 端口、能夠與 Nvidia “Hopper” H100 GPU 實現(xiàn)內(nèi)存一致性共享的“Grace” CG100 Arm 服務(wù)器 CPU 的出現(xiàn)，正是 Nvidia 為了讓 Meta Platforms 留在其陣營而做出的努力。DLRM 比 LLM 需要更多的 CPU 內(nèi)存，而 LLM 并沒有龐大的嵌入表。

最大的問題在于，隨著計算資源的增加，DLRM 的性能提升并不會隨之提升，這意味著規(guī)模更大的 DLRM 并不總是意味著更好的 DLRM。然而，從 2024 年開始，Meta Platforms 提出了一種新的 DLRM 方法，稱為生成式推薦器。該方法基于一種名為分層序列轉(zhuǎn)換單元 (HSTU)的技術(shù)，借鑒了語言學(xué)習(xí)模型 (LLM) 的一些技術(shù)，并將用戶行為視為一種語言，利用生成技術(shù)來預(yù)測用戶的下一步行為，就像 LLM 可以根據(jù)人類知識庫預(yù)測序列中的下一個詞元一樣。Meta Platforms 已在其所有應(yīng)用平臺上使用的 DLRM v3 模型中嵌入了這種 HTSU 方法。

我認(rèn)為，正是這種讓 DLRM 更像 LLM 的洞察，以及 HSTU 技術(shù)及其生成式推薦引擎背后的算法和數(shù)學(xué)原理，推動了 Meta Platforms 的 MTIA AI 計算引擎項目。自主研發(fā) AI 計算引擎的唯一目的，就是進(jìn)行協(xié)同設(shè)計，從而大幅提升性價比。（相比于在特定并行計算任務(wù)上表現(xiàn)更出色，降低成本或許更容易，因此這絕非易事。）

Meta Platforms 近期公布了其 MTIA 路線圖，駁斥了此前關(guān)于其發(fā)展受阻的傳言，并印證了其芯片合作伙伴博通的觀點。在仔細(xì)思考了 MTIA 路線圖之后，我終于有了一些值得記錄的想法。我們對未來的 MTIA 設(shè)備知之甚少，但可以肯定的是：它們將采用 HTSU 技術(shù)進(jìn)行協(xié)同設(shè)計，從而降低 R&R 訓(xùn)練和推理的成本。我們還認(rèn)為，HTSU 方法意味著未來的 MTIA 設(shè)備在 GenAI 推理方面可能表現(xiàn)出色，這將幫助 Meta Platforms 實現(xiàn)架構(gòu)上的雙重目標(biāo)，同時支持其 DLRM 和 LLM 項目。

讓我們深入了解一下它的構(gòu)造

顯而易見的是，未來的MTIA芯片看起來更像是GPU和其他XPU，而不是之前于2023年5月發(fā)布的MTIA v1和于2023年4月發(fā)布的MTIA v2。我們已將它們重新命名為MTIA 100和MTIA 200，Meta Platforms表示，他們已在其數(shù)據(jù)中心部署了數(shù)十萬個MTIA 100和MTIA 200芯片，以及此前未曾提及的MTIA 300芯片。

未來的 MTIA 以及目前已部署用于 R&R 訓(xùn)練工作負(fù)載的 MTIA 300 之所以需要具備類似 GPU 和 AI XPU 的性能，是因為它們正在從基于向量嵌入空間中用戶和活動相關(guān)性的嵌入查找和比較的應(yīng)用，轉(zhuǎn)向類似于 LLM 中詞元預(yù)測的用戶活動預(yù)測。因此，與 DLRM v2 中的機器學(xué)習(xí)技術(shù)相比，在 DLRM v3 中使用 HTSU 方法當(dāng)然需要極快的內(nèi)存速度以及更強大的計算能力。

Meta Platforms 自去年下半年開始部署 MTIA 300 計算引擎。以下是 Meta Platforms 提供的簡化框圖，所有框圖并排顯示，方便您一目了然：

MTIA 300 采用多芯片設(shè)計，這與 MTIA 100 和 MTIA 200 不同，后者是單芯片設(shè)計，計算、I/O 和內(nèi)存控制器都集成在同一塊硅片上。MTIA 擁有一個處理單元網(wǎng)格，這些單元連接到我認(rèn)為出于經(jīng)濟(jì)原因而采用的 HBM3（而非 HBM3E）堆疊式內(nèi)存組。Meta Platforms 公布的容量和帶寬數(shù)據(jù)也讓我確信這一點。

總之，正如你所見，MTIA 芯片包含一個搭載 HBM3 控制器的計算芯片，以及兩個 I/O 芯片（分別位于芯片頂部和底部），用于連接外部網(wǎng)絡(luò)。值得注意的是，這兩個 I/O 芯片共提供了 12 條 800 Gb/s RoCE 以太網(wǎng)通道，帶寬相當(dāng)可觀。

我照例制作了一個表格，將六種不同的MTIA計算引擎并排展示，以便我們比較過去和未來的發(fā)展。請看一看，我們再來討論：

與The Next Platform 的慣例一樣，所有以普通黑色文本顯示的都是真實數(shù)據(jù)，所有以粗體紅色斜體文本顯示的都是我的估計。

MTIA 300 標(biāo)志著 Meta Platforms 從 INT8 處理轉(zhuǎn)向 FP8 處理，這意味著不再需要將數(shù)據(jù)從浮點格式轉(zhuǎn)換為整數(shù)。MTIA 300 上的張量單元性能顯著提升，但耗電量也增加了 8.9 倍。我們推測，其每 8 位或 16 位性能單位的成本更高，但這也在意料之中，因為 MTIA 300 專注于 R&R 訓(xùn)練，而非像 MTIA 100 和 MTIA 20 那樣專注于 R&R 推理。MTIA 300 也為更強大的 MTIA 計算引擎奠定了基礎(chǔ)。

我們目前尚不清楚MTIA 300及其后續(xù)產(chǎn)品在向量運算方面究竟表現(xiàn)如何，但正如我們深入分析其架構(gòu)后發(fā)現(xiàn)的那樣，每個處理單元都包含兩個RISC-V向量核心?；蛟SMeta Platforms能夠為我們解答這個問題？

可以看到，MTIA 400 將插槽中的計算芯片數(shù)量翻了一番，并增加了一條芯片間鏈路，連接到一個 SoC，該 SoC 充當(dāng)主機處理器和 MTIA 處理單元之間的橋梁。鑒于Meta Platforms 是Arm 的新型 AGI CPU-1的聯(lián)合設(shè)計者及其首位客戶，我們推測該主機處理器就是 Arm 的新型 AGI CPU-1。目前尚不清楚該 SoC 的具體功能，但我們預(yù)計它會像某種 DPU 一樣，嵌入在 MTIA 的計算芯片和 I/O 芯片之間。MTIA 400 將插入由 AMD 和 Meta Platforms 聯(lián)合開發(fā)的“Helios”開放式機架寬型 v3 機架，最多可將 72 個這樣的設(shè)備連接到共享內(nèi)存域中。

Meta Platforms公司表示，MTIA 400芯片已在其實驗室完成測試，并準(zhǔn)備在其數(shù)據(jù)中心進(jìn)行部署。這令其芯片供應(yīng)商博通公司（Broadcom）——或許也是其機架式系統(tǒng)構(gòu)建商——非常高興。

MTIA 450 是 MTIA 400 的快速升級版，我們認(rèn)為其主要改進(jìn)在于將 MTIA 400 使用的 HBM3E 內(nèi)存升級到了 HBM4 內(nèi)存。這使得器件的內(nèi)存帶寬翻倍，達(dá)到了相當(dāng)可觀的 18.4 TB/s，同時 MX4 峰值吞吐量也提升了 1.75 倍。值得注意的是，與 MTIA 400 相比，MTIA 450 的 MX8 和 FP16 性能僅提升了 16.7%。我猜測，由于某種原因，這部分額外的性能可能隱藏在 MTIA 400 和 MTIA 450 芯片中，并未完全發(fā)揮出來，這或許與臺積電 (TSMC) 3 納米工藝的良率有關(guān)。這種“暗硅”設(shè)計讓我感到困擾，尤其是在 Meta Platforms 并沒有任何商業(yè)理由讓芯片的某些部分保持“暗”狀態(tài)的情況下，除非這樣做有助于提高良率。

MTIA 500 的具體設(shè)計比較復(fù)雜，但顯然它包含四個用于處理單元計算的芯片。我認(rèn)為，明年年底采用四芯片封裝（chiplet）是對四芯片計算復(fù)合體的一次預(yù)演，為即將到來的高數(shù)值孔徑（High NA）工藝轉(zhuǎn)型做準(zhǔn)備。高數(shù)值孔徑工藝雖然可以在芯片上增加更多晶體管，但光刻面積會減半。如果是我來做，我會利用現(xiàn)有的 EUV 工藝和 2 納米節(jié)點的芯片互連技術(shù)，完善四芯片封裝的良率，然后為高數(shù)值孔徑工藝的轉(zhuǎn)型做好準(zhǔn)備。這一點尤其值得關(guān)注，因為更小的芯片良率更高，這也是 AMD 兩年前轉(zhuǎn)向八芯片 GPU 復(fù)合體的原因。最好將芯片封裝技術(shù)與高數(shù)值孔徑工藝的轉(zhuǎn)型分開學(xué)習(xí)。

你會注意到MTIA 500將有384GB和512GB兩種堆疊式內(nèi)存版本，根據(jù)規(guī)格推測，它們將采用HBM4E顯存。384GB版本很可能是為了提高良率——誰會舍得扔掉一塊只有25%內(nèi)存是次品的MTIA 500呢？博通想賣掉它，而Meta Platforms想買。順便一提，我認(rèn)為出于同樣的原因，還會推出256GB版本。

我們粗略估算了一下博通公司為 Meta Platforms 提供的 MTIA 計算引擎成品的成本，以此說明技術(shù)和經(jīng)濟(jì)效益的變化速度有多快。從 2023 年到 2027 年，Meta Platforms 的 MTIA 設(shè)備有效吞吐量將提升 293 倍（其中一半來自向 MX4 4 位數(shù)據(jù)格式的遷移），據(jù)我估計，其單位推理吞吐量（以峰值浮點運算次數(shù)衡量）的成本將下降 9.1 倍。

（來源：編譯自nextplatform）

*免責(zé)聲明：本文由作者原創(chuàng)。文章內(nèi)容系作者個人觀點，半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點，不代表半導(dǎo)體行業(yè)觀察對該觀點贊同或支持，如果有任何異議，歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。

今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4371內(nèi)容，歡迎關(guān)注。

加星標(biāo)??第一時間看推送

求推薦

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.