![]()
英特爾與SambaNova正在推出一種新型異構推理架構,旨在解決企業AI領域日益突出的痛點:如何在不過度依賴GPU的情況下,大規模運行智能體工作負載。
該架構將推理過程分為三個層次——GPU負責預填充(prefill),SambaNova的可重構數據流單元(RDU)負責解碼,英特爾Xeon 6 CPU則負責智能體任務的執行與調度。這一設計折射出業界正在從單一GPU系統向多元化方向轉變的大趨勢。
推動這一變革的背景是:企業在實際運營中面臨推理成本攀升、功耗受限以及GPU利用率不足等問題,迫使各方重新審視以GPU為核心的系統架構設計。
該方案預計于2026年下半年正式上線,目標客戶為正在構建編程智能體及其他多步驟系統的企業、云服務商以及主權AI部署方。
瓶頸從訓練轉向執行
這一方案的核心邏輯并非取代GPU,而是正視GPU的不足之處。GPU在并行處理提示詞方面依然表現出色,但智能體AI引入了一類工作負載——其均一性較差,更依賴系統協調、工具調用和實時決策。
SambaNova首席執行官Rodrigo Liang在官方聲明中表示:"智能體AI正在走向生產部署,我們觀察到的制勝模式是:由GPU啟動任務,由英特爾Xeon 6運行任務,再由SambaNova RDU快速完成任務。"
編程智能體是一個典型案例。它們需要持續編譯和執行代碼、調用API、查詢數據庫并協調工作流,這些步驟對CPU和內存帶寬的依賴程度極高,使CPU在推理流程中扮演著舉足輕重的角色。
SambaNova產品副總裁Anton McGonnell表示:"GPU非常擅長對輸入處理進行矩陣運算的并行化,但在解碼方面表現欠佳,尤其是在對延遲敏感的工作負載場景下。"
行業分析師普遍認同這一轉變正在發生,但尚未形成定論。
Moor Insights & Strategy首席執行官兼首席分析師Patrick Moorhead表示:"我們已經到了異構計算勢在必行的階段。我們需要提升效率,因此要讓合適的計算資源承擔合適的任務,無論是訓練、預填充、解碼,還是智能體調度。"
這一轉變標志著基礎設施建設重心正從以訓練為中心,轉向針對延遲、調度與成本優化的推理系統。
三層推理流水線
該架構將推理過程劃分為不同階段,由各類處理器分別承擔工作流的不同部分。GPU處理提示詞并生成鍵值緩存,RDU在解碼階段負責Token生成,CPU則負責智能體任務的調度與執行。
其核心論點簡單明了:沒有任何一種處理器能在所有階段都達到最優性能,在推理過程日趨交互化和有狀態化的背景下尤為如此。
英特爾數據中心XPU產品與解決方案副總裁兼總經理Jeff McVeigh表示:"最關鍵的是確保用戶所購置的資產都能得到充分利用。"
這一表述將討論焦點從峰值性能轉向系統效率——讓推理的每個階段都保持滿負荷運轉,而非將壓力集中在單一處理器上。
SambaNova的RDU被定位為解碼階段的核心組件,該階段的Token生成速度與效率直接決定了延遲表現和運營成本。
英特爾方面則著力強調生態系統的既有優勢。英特爾數據中心事業部執行副總裁兼總經理Kevork Kechichian表示:"數據中心軟件生態系統是建立在x86架構之上的。"他將Xeon定位為企業部署的穩定基石。
效率提升伴隨復雜度增加
兩家公司并未聲稱在性能上全面超越純GPU系統,其賣點在于效率——更高的利用率、更低的單位工作負載成本以及更均衡的系統架構。
McVeigh表示:"一刀切的方案顯然行不通,工作流的每個階段都需要針對性的優化。"
Moorhead認為,這套方案的代價是系統復雜度的提升,但換來了更高的效率。他表示:"關鍵是要建立一個跨工作負載的簡化軟件層,以降低整體復雜度。"
軟件層是整個方案的樞紐。若缺乏有效的軟件層,將工作負載分布在GPU、RDU和CPU之間,反而可能引入額外的運維開銷,從而抵消效率提升所帶來的收益。
SambaNova援引內部基準測試數據稱,Xeon 6在編譯時間和向量數據庫性能方面均有所提升,但上述數據系基于公司內部測試,尚未經過第三方獨立驗證。
未來看點
異構推理并非新鮮事物。超大規模云服務商早已將工作負載分布于CPU、GPU和定制加速器之上。英特爾與SambaNova此舉的真正意義,在于將這一模式打包成可供企業客戶復用的標準化方案。
目前懸而未決的問題集中在落地執行層面:RDU需要在成本與生態系統成熟度上證明自身競爭力,企業客戶也必須看到切實可量化的效率提升。此外,軟件層必須讓整套系統真正易用,而不只是技術上可行。
鑒于正式發布時間定于2026年下半年,這是英特爾與SambaNova對智能體AI工作負載未來演進方向所做的一次前瞻性押注。
Q&A
Q1:異構推理架構的三層流水線是如何分工的?
A:該架構將推理過程分為三個層次:GPU負責處理提示詞并生成鍵值緩存(預填充階段),SambaNova的RDU負責解碼階段的Token生成,英特爾Xeon 6 CPU則負責智能體任務的調度與執行。三類處理器各司其職,核心邏輯是沒有任何一種處理器能在所有階段都達到最優性能,通過分工協作提升整體系統效率。
Q2:為什么GPU不適合處理智能體AI的全部工作負載?
A:GPU擅長對輸入處理進行矩陣運算的并行化,但在解碼階段表現欠佳,尤其面對延遲敏感的工作負載時更為明顯。智能體AI需要持續協調、工具調用和實時決策,這類任務對CPU和內存帶寬的依賴程度更高。以編程智能體為例,其編譯代碼、調用API、查詢數據庫等操作都嚴重依賴CPU,單靠GPU難以高效應對。
Q3:英特爾與SambaNova的異構推理方案何時可以使用?
A:該方案預計于2026年下半年正式上線,目標客戶包括企業、云服務商以及主權AI部署方,尤其面向正在構建編程智能體及其他多步驟系統的用戶。目前,SambaNova援引的內部基準測試數據尚未經過第三方獨立驗證,RDU的成本競爭力與生態系統成熟度也有待進一步驗證。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.