公眾號記得加星標??,第一時間看推送不會錯過。
英特爾和SambaNova周三宣布推出雙方聯(lián)合開發(fā)的、已投入生產(chǎn)的異構(gòu)推理架構(gòu)。該架構(gòu)采用AI加速器或GPU進行預(yù)填充,SambaNova可重構(gòu)數(shù)據(jù)流單元(RDU)SN50進行解碼,并使用Xeon 6處理器來運行代理工具和進行系統(tǒng)編排。該平臺旨在盡可能滿足各種工作負載的需求,從而從英偉達和其他新興廠商手中奪取部分市場份額。
英特爾和SambaNova聯(lián)合開發(fā)的異構(gòu)推理平臺將推理過程拆分為多個階段,分別由不同的芯片處理:它使用AI GPU或AI加速器來處理長提示信息并構(gòu)建鍵值緩存;使用SambaNova的SN50 RDU進行解碼和生成令牌;并使用Xeon 6處理器來運行與代理相關(guān)的操作(例如編譯和執(zhí)行代碼以及驗證輸出),以及協(xié)調(diào)和分配跨硬件的工作負載。
這種將預(yù)填充、解碼和token生成階段分開的做法與英偉達Rubin平臺的思路類似,后者基于Rubin CPX和配備HBM4顯存的高性能Rubin GPU——但顯而易見的區(qū)別在于Rubin CPX不會上市。但對英特爾而言更重要的是,新平臺將采用其Xeon 6處理器,而不是競爭對手的產(chǎn)品。
![]()
該解決方案計劃于 2026 年下半年面向企業(yè)、云運營商和自主人工智能項目推出,旨在幫助他們構(gòu)建可擴展的推理平臺,尤其適用于完全自主開發(fā)的編碼代理和其他智能體工作負載。根據(jù) SambaNova 的內(nèi)部數(shù)據(jù),與基于 Arm 的服務(wù)器 CPU 相比,Xeon 6 的 LLVM 編譯速度提升超過 50%;與競爭對手的 x86 處理器(例如AMD EPYC )相比,其在向量數(shù)據(jù)庫工作負載方面的性能提升高達 70%。兩家公司聲稱,這些性能提升旨在縮短編碼代理和類似應(yīng)用的端到端開發(fā)周期。這種聯(lián)合開發(fā)的、可用于生產(chǎn)環(huán)境的異構(gòu)推理架構(gòu)的最大優(yōu)勢或許在于,SambaNova SN50 和基于 Xeon 的服務(wù)器可直接兼容 30kW 的數(shù)據(jù)中心——這涵蓋了絕大多數(shù)企業(yè)數(shù)據(jù)中心的功率需求。英特爾公司數(shù)據(jù)中心事業(yè)部(DCG)執(zhí)行副總裁兼總經(jīng)理凱沃爾克·凱奇奇安表示:“數(shù)據(jù)中心軟件生態(tài)系統(tǒng)構(gòu)建于x86架構(gòu)之上,并運行于至強處理器之上——這為開發(fā)人員、企業(yè)和云服務(wù)提供商提供了一個成熟可靠的基礎(chǔ)架構(gòu),使其能夠大規(guī)模運行。未來的工作負載將需要異構(gòu)計算,而此次與SambaNova的合作,將提供一個經(jīng)濟高效、高性能的推理架構(gòu),旨在滿足客戶的大規(guī)模需求——該架構(gòu)由至強6處理器驅(qū)動。”
CPU,卷土重來
智能體人工智能工作負載正在重塑現(xiàn)代數(shù)據(jù)中心基礎(chǔ)設(shè)施的計算需求,將性能瓶頸從以GPU為中心的推理轉(zhuǎn)移到CPU密集型的編排和工作流管理。傳統(tǒng)的AI推理流水線主要依賴GPU執(zhí)行單次前向傳播,其中輸入標記化、模型執(zhí)行和輸出生成是順序進行的。然而,新興的智能體人工智能系統(tǒng)將推理轉(zhuǎn)變?yōu)橐粋€分布式、多步驟的過程,涉及規(guī)劃、工具調(diào)用、驗證和迭代推理。這種架構(gòu)變化帶來了巨大的CPU需求,使得CPU容量成為維持系統(tǒng)吞吐量和整體成本效益的關(guān)鍵因素。
![]()
在代理工作流中,CPU 執(zhí)行編排任務(wù),例如控制流管理、分支邏輯、重試以及多個代理和外部服務(wù)之間的協(xié)調(diào)。每次代理調(diào)用都可能需要與數(shù)據(jù)庫、API、搜索引擎或向量存儲進行交互,所有這些都會產(chǎn)生額外的 CPU、內(nèi)存和 I/O 開銷。此外,推理密集型工作負載通常需要沙盒執(zhí)行環(huán)境進行驗證和測試。這些迭代循環(huán)創(chuàng)建了多輪工作流,其中 CPU 決定端到端吞吐量。當 CPU 資源不足時,GPU 會處于空閑狀態(tài),等待預(yù)處理、工具執(zhí)行或驗證步驟完成,導(dǎo)致昂貴的加速器硬件利用率低下。
實驗基準測試進一步證實了CPU工作負載在智能體流水線中的重要性。在一個模擬監(jiān)管文件分析的金融異常檢測工作流程中,CPU負責處理數(shù)據(jù)加載、基線計算、異常檢測、文檔檢索以及通過網(wǎng)絡(luò)搜索進行數(shù)據(jù)增強等任務(wù)。結(jié)果表明,CPU操作占據(jù)了總運行時間的大部分,僅數(shù)據(jù)增強一項就比基于GPU的模型推理步驟耗時更長。這凸顯了僅靠推理加速無法優(yōu)化性能;系統(tǒng)需要在CPU編排和GPU計算之間進行平衡。
第二個基準測試側(cè)重于人工智能輔助代碼生成,進一步揭示了CPU瓶頸。在該工作流程中,GPU生成候選解決方案,而CPU則在沙盒環(huán)境中執(zhí)行和驗證代碼。在兩千多個任務(wù)中,盡管使用了高核心數(shù)系統(tǒng),基于CPU的沙盒執(zhí)行仍然比GPU代碼生成耗時略長。CPU階段涉及子進程管理、測試執(zhí)行和結(jié)果分析,這表明在智能體系統(tǒng)中,驗證循環(huán)的時間可以與推理時間相媲美甚至超過推理時間。這些發(fā)現(xiàn)表明,如果不相應(yīng)地擴展CPU性能,僅提高GPU性能并不能提高整體吞吐量。
這些實驗得出的基礎(chǔ)設(shè)施規(guī)模建議強調(diào)保持 CPU 與 GPU 的平衡比例。目前的指導(dǎo)原則是 CPU 與 GPU 的比例應(yīng)在 1:1 到 1.4:1 之間,相當于每個 GPU 大約需要 86 到 120 個 CPU 核心,具體比例取決于工作負載特性。較小的模型由于生成令牌的速度更快,因此需要額外的 CPU 容量來保持 GPU 的滿負荷運行,而更強大的 CPU 則可以降低所需的比例。未來的高性能 GPU 可能會進一步增加對 CPU 的需求,隨著編排復(fù)雜性的增加,可能會推高 CPU 與 GPU 的比例。
其影響遠不止于性能優(yōu)化。CPU資源配置不足會導(dǎo)致編排延遲、工具執(zhí)行緩慢以及驗證循環(huán)變慢,所有這些都會降低GPU利用率并增加運營成本。相反,擴展CPU資源可確保數(shù)據(jù)準備、協(xié)調(diào)和驗證的持續(xù)進行,從而使GPU能夠以最高效率運行。這種系統(tǒng)級的平衡與微服務(wù)架構(gòu)類似,在微服務(wù)架構(gòu)中,整體性能取決于最慢的組件,而不是最快的組件。
總而言之:隨著智能體人工智能的不斷發(fā)展,CPU 將在推理基礎(chǔ)設(shè)施中扮演日益重要的角色。從單次推理到多步驟工作流的轉(zhuǎn)變,使得編排、協(xié)調(diào)和運行時管理的重要性日益凸顯。因此,部署智能體的組織必須重新考慮傳統(tǒng)的以 GPU 為中心的擴展策略,轉(zhuǎn)而設(shè)計能夠提供充足 CPU 容量的均衡架構(gòu)。通過合理配置 CPU 和 GPU 資源,數(shù)據(jù)中心可以維持吞吐量,最大限度地減少加速器閑置,并優(yōu)化下一代人工智能部署的總體擁有成本。
(來源:編譯自tomshardware)
*免責聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個人觀點,半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達一種不同的觀點,不代表半導(dǎo)體行業(yè)觀察對該觀點贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。
今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4371內(nèi)容,歡迎關(guān)注。
加星標??第一時間看推送
求推薦
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.