芯片龍頭，反擊英偉達

2026-04-09 09:22:05　來源: 半導(dǎo)體行業(yè)觀察

上海舉報

分享至

公眾號記得加星標??，第一時間看推送不會錯過。

英特爾和SambaNova周三宣布推出雙方聯(lián)合開發(fā)的、已投入生產(chǎn)的異構(gòu)推理架構(gòu)。該架構(gòu)采用AI加速器或GPU進行預(yù)填充，SambaNova可重構(gòu)數(shù)據(jù)流單元（RDU）SN50進行解碼，并使用Xeon 6處理器來運行代理工具和進行系統(tǒng)編排。該平臺旨在盡可能滿足各種工作負載的需求，從而從英偉達和其他新興廠商手中奪取部分市場份額。

英特爾和SambaNova聯(lián)合開發(fā)的異構(gòu)推理平臺將推理過程拆分為多個階段，分別由不同的芯片處理：它使用AI GPU或AI加速器來處理長提示信息并構(gòu)建鍵值緩存；使用SambaNova的SN50 RDU進行解碼和生成令牌；并使用Xeon 6處理器來運行與代理相關(guān)的操作（例如編譯和執(zhí)行代碼以及驗證輸出），以及協(xié)調(diào)和分配跨硬件的工作負載。

這種將預(yù)填充、解碼和token生成階段分開的做法與英偉達Rubin平臺的思路類似，后者基于Rubin CPX和配備HBM4顯存的高性能Rubin GPU——但顯而易見的區(qū)別在于Rubin CPX不會上市。但對英特爾而言更重要的是，新平臺將采用其Xeon 6處理器，而不是競爭對手的產(chǎn)品。

該解決方案計劃于 2026 年下半年面向企業(yè)、云運營商和自主人工智能項目推出，旨在幫助他們構(gòu)建可擴展的推理平臺，尤其適用于完全自主開發(fā)的編碼代理和其他智能體工作負載。根據(jù) SambaNova 的內(nèi)部數(shù)據(jù)，與基于 Arm 的服務(wù)器 CPU 相比，Xeon 6 的 LLVM 編譯速度提升超過 50%；與競爭對手的 x86 處理器（例如AMD EPYC ）相比，其在向量數(shù)據(jù)庫工作負載方面的性能提升高達 70%。兩家公司聲稱，這些性能提升旨在縮短編碼代理和類似應(yīng)用的端到端開發(fā)周期。這種聯(lián)合開發(fā)的、可用于生產(chǎn)環(huán)境的異構(gòu)推理架構(gòu)的最大優(yōu)勢或許在于，SambaNova SN50 和基于 Xeon 的服務(wù)器可直接兼容 30kW 的數(shù)據(jù)中心——這涵蓋了絕大多數(shù)企業(yè)數(shù)據(jù)中心的功率需求。英特爾公司數(shù)據(jù)中心事業(yè)部（DCG）執(zhí)行副總裁兼總經(jīng)理凱沃爾克·凱奇奇安表示：“數(shù)據(jù)中心軟件生態(tài)系統(tǒng)構(gòu)建于x86架構(gòu)之上，并運行于至強處理器之上——這為開發(fā)人員、企業(yè)和云服務(wù)提供商提供了一個成熟可靠的基礎(chǔ)架構(gòu)，使其能夠大規(guī)模運行。未來的工作負載將需要異構(gòu)計算，而此次與SambaNova的合作，將提供一個經(jīng)濟高效、高性能的推理架構(gòu)，旨在滿足客戶的大規(guī)模需求——該架構(gòu)由至強6處理器驅(qū)動。”

CPU，卷土重來

智能體人工智能工作負載正在重塑現(xiàn)代數(shù)據(jù)中心基礎(chǔ)設(shè)施的計算需求，將性能瓶頸從以GPU為中心的推理轉(zhuǎn)移到CPU密集型的編排和工作流管理。傳統(tǒng)的AI推理流水線主要依賴GPU執(zhí)行單次前向傳播，其中輸入標記化、模型執(zhí)行和輸出生成是順序進行的。然而，新興的智能體人工智能系統(tǒng)將推理轉(zhuǎn)變?yōu)橐粋€分布式、多步驟的過程，涉及規(guī)劃、工具調(diào)用、驗證和迭代推理。這種架構(gòu)變化帶來了巨大的CPU需求，使得CPU容量成為維持系統(tǒng)吞吐量和整體成本效益的關(guān)鍵因素。

在代理工作流中，CPU 執(zhí)行編排任務(wù)，例如控制流管理、分支邏輯、重試以及多個代理和外部服務(wù)之間的協(xié)調(diào)。每次代理調(diào)用都可能需要與數(shù)據(jù)庫、API、搜索引擎或向量存儲進行交互，所有這些都會產(chǎn)生額外的 CPU、內(nèi)存和 I/O 開銷。此外，推理密集型工作負載通常需要沙盒執(zhí)行環(huán)境進行驗證和測試。這些迭代循環(huán)創(chuàng)建了多輪工作流，其中 CPU 決定端到端吞吐量。當 CPU 資源不足時，GPU 會處于空閑狀態(tài)，等待預(yù)處理、工具執(zhí)行或驗證步驟完成，導(dǎo)致昂貴的加速器硬件利用率低下。

實驗基準測試進一步證實了CPU工作負載在智能體流水線中的重要性。在一個模擬監(jiān)管文件分析的金融異常檢測工作流程中，CPU負責處理數(shù)據(jù)加載、基線計算、異常檢測、文檔檢索以及通過網(wǎng)絡(luò)搜索進行數(shù)據(jù)增強等任務(wù)。結(jié)果表明，CPU操作占據(jù)了總運行時間的大部分，僅數(shù)據(jù)增強一項就比基于GPU的模型推理步驟耗時更長。這凸顯了僅靠推理加速無法優(yōu)化性能；系統(tǒng)需要在CPU編排和GPU計算之間進行平衡。

第二個基準測試側(cè)重于人工智能輔助代碼生成，進一步揭示了CPU瓶頸。在該工作流程中，GPU生成候選解決方案，而CPU則在沙盒環(huán)境中執(zhí)行和驗證代碼。在兩千多個任務(wù)中，盡管使用了高核心數(shù)系統(tǒng)，基于CPU的沙盒執(zhí)行仍然比GPU代碼生成耗時略長。CPU階段涉及子進程管理、測試執(zhí)行和結(jié)果分析，這表明在智能體系統(tǒng)中，驗證循環(huán)的時間可以與推理時間相媲美甚至超過推理時間。這些發(fā)現(xiàn)表明，如果不相應(yīng)地擴展CPU性能，僅提高GPU性能并不能提高整體吞吐量。

這些實驗得出的基礎(chǔ)設(shè)施規(guī)模建議強調(diào)保持 CPU 與 GPU 的平衡比例。目前的指導(dǎo)原則是 CPU 與 GPU 的比例應(yīng)在 1:1 到 1.4:1 之間，相當于每個 GPU 大約需要 86 到 120 個 CPU 核心，具體比例取決于工作負載特性。較小的模型由于生成令牌的速度更快，因此需要額外的 CPU 容量來保持 GPU 的滿負荷運行，而更強大的 CPU 則可以降低所需的比例。未來的高性能 GPU 可能會進一步增加對 CPU 的需求，隨著編排復(fù)雜性的增加，可能會推高 CPU 與 GPU 的比例。

其影響遠不止于性能優(yōu)化。CPU資源配置不足會導(dǎo)致編排延遲、工具執(zhí)行緩慢以及驗證循環(huán)變慢，所有這些都會降低GPU利用率并增加運營成本。相反，擴展CPU資源可確保數(shù)據(jù)準備、協(xié)調(diào)和驗證的持續(xù)進行，從而使GPU能夠以最高效率運行。這種系統(tǒng)級的平衡與微服務(wù)架構(gòu)類似，在微服務(wù)架構(gòu)中，整體性能取決于最慢的組件，而不是最快的組件。

總而言之：隨著智能體人工智能的不斷發(fā)展，CPU 將在推理基礎(chǔ)設(shè)施中扮演日益重要的角色。從單次推理到多步驟工作流的轉(zhuǎn)變，使得編排、協(xié)調(diào)和運行時管理的重要性日益凸顯。因此，部署智能體的組織必須重新考慮傳統(tǒng)的以 GPU 為中心的擴展策略，轉(zhuǎn)而設(shè)計能夠提供充足 CPU 容量的均衡架構(gòu)。通過合理配置 CPU 和 GPU 資源，數(shù)據(jù)中心可以維持吞吐量，最大限度地減少加速器閑置，并優(yōu)化下一代人工智能部署的總體擁有成本。

（來源：編譯自tomshardware）

*免責聲明：本文由作者原創(chuàng)。文章內(nèi)容系作者個人觀點，半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達一種不同的觀點，不代表半導(dǎo)體行業(yè)觀察對該觀點贊同或支持，如果有任何異議，歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。

今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4371內(nèi)容，歡迎關(guān)注。

加星標??第一時間看推送

求推薦

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.