網易首頁 > 網易號 > 正文申請入駐

英特爾與SambaNova押注分布式推理，應對智能體AI對GPU的壓力

2026-04-09 21:54:14　來源: 至頂頭條

北京舉報

分享至

英特爾與SambaNova正在推出一種新型異構推理架構，旨在解決企業AI領域日益突出的痛點：如何在不過度依賴GPU的情況下，大規模運行智能體工作負載。

該架構將推理過程分為三個層次——GPU負責預填充（prefill），SambaNova的可重構數據流單元（RDU）負責解碼，英特爾Xeon 6 CPU則負責智能體任務的執行與調度。這一設計折射出業界正在從單一GPU系統向多元化方向轉變的大趨勢。

推動這一變革的背景是：企業在實際運營中面臨推理成本攀升、功耗受限以及GPU利用率不足等問題，迫使各方重新審視以GPU為核心的系統架構設計。

該方案預計于2026年下半年正式上線，目標客戶為正在構建編程智能體及其他多步驟系統的企業、云服務商以及主權AI部署方。

瓶頸從訓練轉向執行

這一方案的核心邏輯并非取代GPU，而是正視GPU的不足之處。GPU在并行處理提示詞方面依然表現出色，但智能體AI引入了一類工作負載——其均一性較差，更依賴系統協調、工具調用和實時決策。

SambaNova首席執行官Rodrigo Liang在官方聲明中表示："智能體AI正在走向生產部署，我們觀察到的制勝模式是：由GPU啟動任務，由英特爾Xeon 6運行任務，再由SambaNova RDU快速完成任務。"

編程智能體是一個典型案例。它們需要持續編譯和執行代碼、調用API、查詢數據庫并協調工作流，這些步驟對CPU和內存帶寬的依賴程度極高，使CPU在推理流程中扮演著舉足輕重的角色。

SambaNova產品副總裁Anton McGonnell表示："GPU非常擅長對輸入處理進行矩陣運算的并行化，但在解碼方面表現欠佳，尤其是在對延遲敏感的工作負載場景下。"

行業分析師普遍認同這一轉變正在發生，但尚未形成定論。

Moor Insights & Strategy首席執行官兼首席分析師Patrick Moorhead表示："我們已經到了異構計算勢在必行的階段。我們需要提升效率，因此要讓合適的計算資源承擔合適的任務，無論是訓練、預填充、解碼，還是智能體調度。"

這一轉變標志著基礎設施建設重心正從以訓練為中心，轉向針對延遲、調度與成本優化的推理系統。

三層推理流水線

該架構將推理過程劃分為不同階段，由各類處理器分別承擔工作流的不同部分。GPU處理提示詞并生成鍵值緩存，RDU在解碼階段負責Token生成，CPU則負責智能體任務的調度與執行。

其核心論點簡單明了：沒有任何一種處理器能在所有階段都達到最優性能，在推理過程日趨交互化和有狀態化的背景下尤為如此。

英特爾數據中心XPU產品與解決方案副總裁兼總經理Jeff McVeigh表示："最關鍵的是確保用戶所購置的資產都能得到充分利用。"

這一表述將討論焦點從峰值性能轉向系統效率——讓推理的每個階段都保持滿負荷運轉，而非將壓力集中在單一處理器上。

SambaNova的RDU被定位為解碼階段的核心組件，該階段的Token生成速度與效率直接決定了延遲表現和運營成本。

英特爾方面則著力強調生態系統的既有優勢。英特爾數據中心事業部執行副總裁兼總經理Kevork Kechichian表示："數據中心軟件生態系統是建立在x86架構之上的。"他將Xeon定位為企業部署的穩定基石。

效率提升伴隨復雜度增加

兩家公司并未聲稱在性能上全面超越純GPU系統，其賣點在于效率——更高的利用率、更低的單位工作負載成本以及更均衡的系統架構。

McVeigh表示："一刀切的方案顯然行不通，工作流的每個階段都需要針對性的優化。"

Moorhead認為，這套方案的代價是系統復雜度的提升，但換來了更高的效率。他表示："關鍵是要建立一個跨工作負載的簡化軟件層，以降低整體復雜度。"

軟件層是整個方案的樞紐。若缺乏有效的軟件層，將工作負載分布在GPU、RDU和CPU之間，反而可能引入額外的運維開銷，從而抵消效率提升所帶來的收益。

SambaNova援引內部基準測試數據稱，Xeon 6在編譯時間和向量數據庫性能方面均有所提升，但上述數據系基于公司內部測試，尚未經過第三方獨立驗證。

未來看點

異構推理并非新鮮事物。超大規模云服務商早已將工作負載分布于CPU、GPU和定制加速器之上。英特爾與SambaNova此舉的真正意義，在于將這一模式打包成可供企業客戶復用的標準化方案。

目前懸而未決的問題集中在落地執行層面：RDU需要在成本與生態系統成熟度上證明自身競爭力，企業客戶也必須看到切實可量化的效率提升。此外，軟件層必須讓整套系統真正易用，而不只是技術上可行。

鑒于正式發布時間定于2026年下半年，這是英特爾與SambaNova對智能體AI工作負載未來演進方向所做的一次前瞻性押注。

Q&A

Q1：異構推理架構的三層流水線是如何分工的？

A：該架構將推理過程分為三個層次：GPU負責處理提示詞并生成鍵值緩存（預填充階段），SambaNova的RDU負責解碼階段的Token生成，英特爾Xeon 6 CPU則負責智能體任務的調度與執行。三類處理器各司其職，核心邏輯是沒有任何一種處理器能在所有階段都達到最優性能，通過分工協作提升整體系統效率。

Q2：為什么GPU不適合處理智能體AI的全部工作負載？

A：GPU擅長對輸入處理進行矩陣運算的并行化，但在解碼階段表現欠佳，尤其面對延遲敏感的工作負載時更為明顯。智能體AI需要持續協調、工具調用和實時決策，這類任務對CPU和內存帶寬的依賴程度更高。以編程智能體為例，其編譯代碼、調用API、查詢數據庫等操作都嚴重依賴CPU，單靠GPU難以高效應對。

Q3：英特爾與SambaNova的異構推理方案何時可以使用？

A：該方案預計于2026年下半年正式上線，目標客戶包括企業、云服務商以及主權AI部署方，尤其面向正在構建編程智能體及其他多步驟系統的用戶。目前，SambaNova援引的內部基準測試數據尚未經過第三方獨立驗證，RDU的成本競爭力與生態系統成熟度也有待進一步驗證。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.