
作者 | Potatooo
當(dāng) AI 大模型從實(shí)驗(yàn)室沖向產(chǎn)業(yè)一線,企業(yè)的算力需求正經(jīng)歷一場(chǎng)前所未有的“撕裂式分化”:一邊是 3A 游戲、AI 渲染等場(chǎng)景對(duì)極致性能的“軍備競(jìng)賽”,一邊是 Web 服務(wù)、視頻轉(zhuǎn)碼等高頻場(chǎng)景對(duì)性價(jià)比與能效比的“精打細(xì)算”,電力成本的飆升與數(shù)據(jù)安全的紅線,更讓這場(chǎng)算力抉擇變成“既要又要還要”的多重考驗(yàn)。
過(guò)去“一套拳法打天下”的時(shí)代早已落幕,當(dāng)行業(yè)還在為“性能優(yōu)先”還是“成本優(yōu)先”爭(zhēng)論不休時(shí),英特爾與騰訊云的聯(lián)合實(shí)踐給出了不一樣的答案。在最新一期《C 位面對(duì)面》欄目中,InfoQ 極客傳媒創(chuàng)始人 &CEO 霍太穩(wěn)和英特爾數(shù)據(jù)中心與人工智能集團(tuán)副總裁兼中國(guó)區(qū)總經(jīng)理陳葆立、騰訊云 CVM 產(chǎn)品副總經(jīng)理李德鎧的深度對(duì)話,揭開(kāi)了算力“分野與合流”的核心邏輯——以芯片雙架構(gòu)為底層支撐,以分層云實(shí)例為落地載體,讓高性能與普惠性不再對(duì)立,讓軟硬件協(xié)同成為破解行業(yè)痛點(diǎn)的關(guān)鍵鑰匙。
算力分化時(shí)代的三重困局
數(shù)字化與智能化的加速,讓企業(yè)算力需求的分化從隱性走向顯性,而 AI 技術(shù)的爆發(fā)則讓這種分化演變成不可調(diào)和的多重矛盾,倒逼行業(yè)從“大一統(tǒng)”走向“精細(xì)化”。
性能與能效的對(duì)立統(tǒng)一
“AI 算力的盡頭其實(shí)是電力”,李德鎧的這句話點(diǎn)破了行業(yè)核心困境。隨著大模型參數(shù)指數(shù)級(jí)增長(zhǎng),電力成本在算力總支出中的占比已攀升至極高水平,單純追求極致性能的算力配置,往往會(huì)陷入“高能耗、高成本”的惡性循環(huán)。但另一方面,GenAI、游戲等場(chǎng)景,又對(duì)算力的主頻、內(nèi)存帶寬和并行計(jì)算能力提出了苛刻要求,性能短板直接影響用戶體驗(yàn)。
這種矛盾催生了算力需求的分層:一部分場(chǎng)景需要“火力全開(kāi)”,另一部分場(chǎng)景則需要“精打細(xì)算”。陳葆立補(bǔ)充道:“這種分化不是短期現(xiàn)象,而是 AI 時(shí)代的長(zhǎng)期趨勢(shì)。”
安全與生態(tài)的剛性需求
除了性能與成本,數(shù)據(jù)安全與生態(tài)適配也成為企業(yè)算力選型的“必選項(xiàng)”。隨著數(shù)據(jù)資產(chǎn)價(jià)值的提升,企業(yè)對(duì)數(shù)據(jù)存儲(chǔ)、傳輸、計(jì)算全流程的安全要求越來(lái)越高,而算力解決方案能否與現(xiàn)有生態(tài)無(wú)縫對(duì)接,直接影響部署效率與遷移成本。陳葆立強(qiáng)調(diào):“企業(yè)需要的不僅是算力本身,更要構(gòu)建完整的安全防護(hù)體系和生態(tài)支持。”
通用與專用的場(chǎng)景分化
過(guò)往企業(yè)依賴一套通用架構(gòu)解決所有問(wèn)題的模式,在 AI 時(shí)代也徹底失效。不同業(yè)務(wù)場(chǎng)景的算力訴求呈現(xiàn)出顯著差異:3A 游戲需要單核高主頻保障操作無(wú)延遲,視頻轉(zhuǎn)碼需要高并發(fā)處理能力降低成本,AI 推理需要矩陣運(yùn)算加速提升效率,Web 服務(wù)需要穩(wěn)定性能避免抖動(dòng)。
場(chǎng)景的細(xì)分要求算力供給必須“精準(zhǔn)匹配”,而非“大水漫灌”。騰訊云與英特爾的合作,正是抓住了這一核心趨勢(shì),推出針對(duì)性的產(chǎn)品組合,讓不同場(chǎng)景都能找到“量身定制”的算力解決方案。
雙軌破局:從芯片到云實(shí)例的協(xié)同革命
面對(duì)算力撕裂的三重困局,英特爾與騰訊云的聯(lián)合創(chuàng)新并非簡(jiǎn)單的產(chǎn)品疊加,而是從芯片架構(gòu)到云實(shí)例、從硬件優(yōu)化到軟件協(xié)同的全鏈路重構(gòu),構(gòu)建起“性能 + 普惠”的雙軌算力體系。
實(shí)際上,英特爾在最新的至強(qiáng)?6 處理器中推出雙架構(gòu)設(shè)計(jì),便是應(yīng)對(duì)算力需求分化的破題關(guān)鍵。“一個(gè)是性能核 P-core,另一個(gè)是能效核 E-core,我們希望通過(guò)兩種不同的處理器架構(gòu),提供不同的算力服務(wù)于客戶。”陳葆立介紹道。
其中,性能核 P-core 主打極致性能,具備高主頻、大緩存、高內(nèi)存帶寬等特性,完美適配 AI 訓(xùn)練、高性能計(jì)算等核心場(chǎng)景;能效核 E-core 則聚焦高內(nèi)核密度與更優(yōu)每瓦性能,通過(guò)精簡(jiǎn)設(shè)計(jì),在保證性能的同時(shí)降低功耗,特別適合云原生、高并發(fā)等普惠型場(chǎng)景。
基于英特爾至強(qiáng)?6 的雙架構(gòu),騰訊云打造了 S9E、S9Pro、S9 三款分層實(shí)例:其中 S9E 與 S9Pro 主打極致性能,搭載至強(qiáng)?6 P-core,專為 AI、游戲、圖像渲染等高性能場(chǎng)景而生;S9 實(shí)例則是全球首發(fā)搭載至強(qiáng)?6 E-core 的 SRF-AP 云實(shí)例,主打高性價(jià)比與高并發(fā)適配。
高性能場(chǎng)景:CPU 與 GPU 如何“1+1>2”?
在 RAG(檢索增強(qiáng)生成)等高性能場(chǎng)景中,行業(yè)曾普遍認(rèn)為 GPU 能包攬所有核心任務(wù),CPU 并無(wú)用武之地,但基于英特爾至強(qiáng)?6 P-core 的 S9E/S9Pro 用實(shí)踐打破了這一認(rèn)知。
“進(jìn)入大模型時(shí)代,GPU 和 CPU 有各自的優(yōu)勢(shì)——GPU 算力強(qiáng),CPU 內(nèi)存大。如果以籃球隊(duì)為例,CPU 就像控球后衛(wèi),既可以傳球給 GPU 前鋒,也能自己得分。”陳葆立表示。
一方面,作為“控球后衛(wèi)”,CPU 能幫助 GPU 更好的釋放性能。陳葆立表示:“大模型就像記憶力不好的天才,無(wú)法在 GPU 中存儲(chǔ)大量用戶上下文。但是如果通過(guò) CPU 與系統(tǒng)內(nèi)存的協(xié)同,就能最大化發(fā)揮 GPU 的能力。”
例如,在 RAG 場(chǎng)景中,借助 CacheClip 技術(shù),能夠有效提升 KVCache 的利用率,從而支持更長(zhǎng)的上下文窗口并提高執(zhí)行效率;另外,通過(guò)英特爾推出的異構(gòu)計(jì)算框架 HeteroFlow,能夠?qū)?MoE 模型中的“冷專家”模塊直接卸載至 CPU 處理(卸載、調(diào)度、加速三管齊下),讓 GPU 的工作更聚焦,從而突破顯存瓶頸,為用戶帶來(lái)更高的整體性能。
“許多客戶在 TTS、ASR、OCR 等預(yù)處理任務(wù)上的日常支出,甚至達(dá)到后續(xù)大模型推理費(fèi)用的數(shù)十倍。這些 AI 工作的前置準(zhǔn)備階段,以前常常要 GPU 分心兼顧。AI 工作負(fù)載里的非結(jié)構(gòu)化數(shù)據(jù)解析、格式轉(zhuǎn)換、特征清洗,看著是‘細(xì)活’,實(shí)則要高并行邏輯和高 I/O 吞吐,正好是機(jī)頭 CPU 的強(qiáng)項(xiàng)。更重要的是:數(shù)據(jù)預(yù)處理通常具有流程復(fù)雜、數(shù)據(jù)量巨大、需彈性擴(kuò)展、實(shí)時(shí)性要求低但吞吐量極高等特點(diǎn)。而這些需求,恰恰與至強(qiáng)?6 的架構(gòu)優(yōu)勢(shì)高度契合。CPU 把預(yù)處理扛了,GPU 就不用在訓(xùn)練推理這樣的核心任務(wù)和預(yù)處理這種邊緣任務(wù)之間來(lái)回切換,算力與時(shí)間一點(diǎn)兒都不浪費(fèi)。”陳葆立解釋道。
“這種 1+1>2 的組合拳,不僅幫客戶解決了 GPU 資源緊張的燃眉之急,更通過(guò)更優(yōu)的部署成本和更低的系統(tǒng)延遲,實(shí)現(xiàn)了全鏈路的性能提升。”李德鎧補(bǔ)充道。
另一方面,CPU 本身也能在 AI 場(chǎng)景“上大分”。英特爾至強(qiáng)?6 P-core 集成了 AMX 加速引擎,專為大規(guī)模 AI 訓(xùn)練和推理工作負(fù)載提供支持,能夠助力客戶提高效率,降低推理、訓(xùn)練和部署成本以及降低總擁有成本 (TCO)。值得一提的是,由于 AMX 是直接集成在 CPU 內(nèi)核上且靠近系統(tǒng)內(nèi)存的內(nèi)置加速器,相比于獨(dú)立加速器,它能提供更便捷、更快速的加速支持。
“利用 AMX 矩陣加速能力,S9e/S9pro 可以非常高效地處理 Embedding(向量嵌入)、數(shù)據(jù)清洗和中小型模型的推理任務(wù)。”李德鎧舉例稱。騰訊云實(shí)測(cè)數(shù)據(jù)顯示,在千問(wèn) 4B 小模型的 Embedding 場(chǎng)景中,搭載英特爾至強(qiáng)?6 P-core 的 S9E/S9Pro 相比 T4 GPU 卡,性能提升了 25%,綜合性價(jià)比直接提升了 66%。
當(dāng)然,在游戲?qū)?zhàn)服、AI 渲染和圖像處理等傳統(tǒng)高性能場(chǎng)景中,S9E/S9Pro 憑借著高主頻和高內(nèi)存帶寬等特性,也成為了“客戶的優(yōu)選”。“玩家 PK 時(shí)的實(shí)時(shí)響應(yīng)至關(guān)重要,S9E/S9Pro 能保障數(shù)據(jù)傳輸?shù)母邘捄偷脱舆t,讓操作指令即時(shí)生效不卡頓。”李德鎧介紹道,“此外,在 AI 渲染和圖像處理場(chǎng)景中,S9E/S9Pro 的多線程核與高內(nèi)存帶寬,也能幫助客戶企業(yè)快速處理海量數(shù)據(jù),大幅提升渲染效率,縮短項(xiàng)目周期。”
普惠場(chǎng)景:如何實(shí)現(xiàn)“性能無(wú)抖動(dòng)、滿載不降頻”?
“普惠不代表性能不行,搭載至強(qiáng)?6 E-core 的 S9 相比上一代實(shí)例性能提升了 15%-20%,能穩(wěn)定支撐 Web 服務(wù)、小程序等輕負(fù)載場(chǎng)景的高并發(fā)需求。”李德鎧強(qiáng)調(diào)。
“性能無(wú)抖動(dòng)、滿載不降頻”的背后是英特爾與騰訊云在設(shè)計(jì)細(xì)節(jié)上的不妥協(xié)。
“我們首先肯定不希望普惠版的云實(shí)例在性能上縮水。”陳葆立表示。硬件層面,英特爾在 E-core 中關(guān)閉了超線程功能,讓每個(gè)虛擬機(jī)擁有獨(dú)立的物理核、顯存和內(nèi)存,避免用戶間的性能干擾,保障性能穩(wěn)定無(wú)抖動(dòng)。“另外,能效核(E-core)顧名思義它的能效比是非常好的,也就是在性能更優(yōu)的同時(shí)功耗更低,這也符合國(guó)家倡導(dǎo)的節(jié)能減碳以及綠色數(shù)據(jù)中心等理念。”
軟件與優(yōu)化層面,騰訊云也做了非常多用戶“看不見(jiàn)”的工作。其中最關(guān)鍵的就是“綁核設(shè)計(jì)”——將 CPU 核心與虛擬機(jī)綁定,確保單個(gè)虛擬機(jī)高負(fù)載運(yùn)行時(shí),不影響整片 CPU 的性能表現(xiàn);同時(shí)優(yōu)化了 CPU 與總線、內(nèi)存的搭配關(guān)系,進(jìn)而縮短了數(shù)據(jù)傳輸路徑,提升了計(jì)算效率。“‘綁核設(shè)計(jì)’對(duì)于計(jì)算密集型任務(wù)的提升非常明顯。”李德鎧補(bǔ)充道。
這種軟硬件協(xié)同的優(yōu)化,讓 S9 在教育行業(yè)大受歡迎。教育機(jī)構(gòu)的錄播視頻課程通常需要轉(zhuǎn)碼為不同碼率,以適配不同網(wǎng)絡(luò)環(huán)境,S9 實(shí)例搭配英特爾軟件庫(kù)后,轉(zhuǎn)碼性能獲得了 90% 以上的提升,在降低成本的同時(shí),保障了課程傳輸?shù)牧鲿承浴?/p>
“S9 的高并發(fā)適配能力,也使其在 Web 服務(wù)和小程序場(chǎng)景中備受青睞。很多客戶反饋,S9 能穩(wěn)定支撐高峰期的并發(fā)請(qǐng)求,且成本比傳統(tǒng)實(shí)例更低。”李德鎧補(bǔ)充道。
此外,基于英特爾至強(qiáng)?6 E-core 的 S9 云實(shí)例,在騰訊內(nèi)部的超大規(guī)模業(yè)務(wù)中,也得到了普遍驗(yàn)證。
以微信存儲(chǔ)為例,不僅通過(guò)高 I/O 實(shí)例配置的使能以及軟件優(yōu)化,高效解決了 Gen5 SSD 高吞吐性能所帶來(lái)的存儲(chǔ)壓力,還通過(guò)英特爾 QAT(數(shù)據(jù)保護(hù)與壓縮)加速器,使得存儲(chǔ)壓縮效率提升了 70%,真正實(shí)現(xiàn)了“用更少空間存更多數(shù)據(jù)”。
在搜索業(yè)務(wù)領(lǐng)域,騰訊新一代海量搜索引擎借助 SRFAP 平臺(tái)能力,使得元寶的搜索性能提升了 15%。另外,在大數(shù)據(jù)業(yè)務(wù)中,S9 實(shí)例的多核并行能力與擴(kuò)展性,也幫助騰訊實(shí)現(xiàn)了顯著的降本增效。
產(chǎn)品成功的背后,是雙方更深層次的戰(zhàn)略共識(shí)。
“我們雙方的合作已經(jīng)超越了簡(jiǎn)單的買(mǎi)賣關(guān)系,上升到了聯(lián)合定義產(chǎn)品的高度。騰訊的宗旨是一切以用戶價(jià)值為依歸,英特爾則以客戶場(chǎng)景為核心,雙方的價(jià)值觀高度契合。我們不會(huì)盲目追求單純的技術(shù)參數(shù),而是先去聽(tīng)市場(chǎng)和用戶的聲音,再回過(guò)頭來(lái)定義產(chǎn)品。”李德鎧表示。
這種契合體現(xiàn)在合作的全流程:從芯片設(shè)計(jì)階段,英特爾就與騰訊云緊密溝通,了解最終用戶的實(shí)際需求,定制化設(shè)計(jì)芯片;在產(chǎn)品定義階段,雙方共同規(guī)劃了三款實(shí)例的定位,確保硬件架構(gòu)與場(chǎng)景需求精準(zhǔn)對(duì)接;在技術(shù)優(yōu)化階段,雙方專家聯(lián)合研發(fā),充分發(fā)揮 AMX、QAT 等指令集的優(yōu)勢(shì),將好鋼用在刀刃上,真正讓技術(shù)紅利轉(zhuǎn)化為客戶價(jià)值。
AI Agent 引爆的算力“新戰(zhàn)場(chǎng)”
談及未來(lái),李德鎧表示:“AI 的技術(shù)熱潮已經(jīng)從模型向 Agent(智能體)演進(jìn),這將帶來(lái)算力需求的新變化。”
在 AI 發(fā)展的早期,算力資源幾乎全部向“模型訓(xùn)練”傾斜,但隨著 AI Agent 時(shí)代的到來(lái),這種天平正在發(fā)生逆轉(zhuǎn)——從“重訓(xùn)練”轉(zhuǎn)向“重推理”。“據(jù)專家預(yù)測(cè),未來(lái)推理算力的需求將達(dá)到現(xiàn)在訓(xùn)練算力的 10 倍。”陳葆立指出。如果說(shuō)訓(xùn)練主要是 GPU 的“大力出奇跡”,那么 Agent 架構(gòu)中的各種推理需求則讓 CPU 的角色將變得空前重要。
“Agent 的本質(zhì)是‘大腦 + 工具’。GPU 負(fù)責(zé)思考,而 CPU 負(fù)責(zé)執(zhí)行(比如運(yùn)行 Python 代碼、查詢數(shù)據(jù)庫(kù)、讀寫(xiě)文件、網(wǎng)絡(luò)通信等),每一步推理后,CPU 都要介入處理非線性邏輯,這會(huì)導(dǎo)致 CPU 的負(fù)載大幅增加。騰訊云第九代云實(shí)例及至強(qiáng)?6 平臺(tái)的設(shè)計(jì),正是致力于通過(guò)更高性能、更優(yōu)能效的通用算力,幫助客戶應(yīng)對(duì)推理與 Agent 負(fù)載帶來(lái)的計(jì)算密度挑戰(zhàn)。”李德鎧表示。
同時(shí),“算力即財(cái)富”的 AI 時(shí)代也對(duì)系統(tǒng)的穩(wěn)定性、可靠性提出了更高的要求。隨著 AI 集群正加速向萬(wàn)卡規(guī)模突破,系統(tǒng)越復(fù)雜,計(jì)算密度越高,就越可能出現(xiàn)更多的靜默數(shù)據(jù)錯(cuò)誤。
陳葆立指出,至強(qiáng)?6 具備 99.999% 的 RAS(可靠性、可用性、可維護(hù)性),能夠全面保障整體系統(tǒng)的穩(wěn)定運(yùn)行;同時(shí)其內(nèi)置的 TDX 技術(shù),能夠?yàn)樵品?wù)提供硬件級(jí)可信執(zhí)行環(huán)節(jié),有效支持通用機(jī)密計(jì)算和異構(gòu)機(jī)密計(jì)算,助力構(gòu)建端到端的可信 AI 服務(wù)能力。
“TDX 技術(shù),幫助我們?cè)谠粕洗蛟炝艘粋€(gè)‘?dāng)?shù)據(jù)保險(xiǎn)箱’,企業(yè)可以無(wú)縫地把它的 AI 模型、Agent 應(yīng)用部署到 S9 系列實(shí)例上,來(lái)確保模型與數(shù)據(jù)的安全。”李德鎧補(bǔ)充道。
此外,AI 應(yīng)用的大爆發(fā)也將進(jìn)一步催生數(shù)據(jù)海量吞吐的需求,對(duì)內(nèi)存、SSD 等部件廠商提出了更高的要求,也對(duì)生態(tài)適配提出了新挑戰(zhàn)。“英特爾作為平臺(tái)方,一直以來(lái)保持著‘生態(tài)聯(lián)盟’的方式,跟伙伴廠商保持密切互動(dòng)、相互驗(yàn)證,以確保整個(gè)平臺(tái)生態(tài)的高質(zhì)量、高安全、高可用。”陳葆立表示。
據(jù)介紹,英特爾最新的 18A 制程工藝已進(jìn)入量產(chǎn)階段,性能提升可達(dá) 15%,密度提升 30%。基于 18A 制程的至強(qiáng)?6 Plus 處理器(Clearwater Forest)將于 2026 年內(nèi)發(fā)布,目前英特爾已經(jīng)與部件廠商、騰訊云等合作伙伴展開(kāi)了早期的適配與驗(yàn)證工作。
“下一步,隨著英特爾 18A 等革命性制程工藝的推進(jìn),我們也會(huì)在第一時(shí)間推出結(jié)合下一代芯片性能的云實(shí)例。同時(shí),我們正在緊鑼密鼓地研發(fā)適配 vRDMA 網(wǎng)絡(luò)的新一代 CVM 機(jī)型,這將進(jìn)一步釋放底層硬件的傳輸潛力。此外,在加密計(jì)算、可信計(jì)算等對(duì)安全性要求極高的垂類場(chǎng)景,我們也會(huì)持續(xù)演進(jìn),利用最新的指令集優(yōu)勢(shì),為企業(yè)數(shù)字化轉(zhuǎn)型和 AI 應(yīng)用的全面落地提供一個(gè)更高效、更安全、更具性價(jià)比的底座。”李德鎧表示。
結(jié) 語(yǔ)
算力的分野與合流,本質(zhì)上是 AI 產(chǎn)業(yè)從“技術(shù)狂歡”走向“價(jià)值落地”的必然。當(dāng)狂熱褪去,企業(yè)終將回歸理性:算力的核心競(jìng)爭(zhēng)力,從來(lái)不是參數(shù)的堆砌,而是對(duì)場(chǎng)景需求的精準(zhǔn)響應(yīng)與資源的最優(yōu)配置。
英特爾與騰訊云的雙軌實(shí)踐,撕開(kāi)了行業(yè)“非黑即白”的選型困局:性能核與能效核的二元架構(gòu),消除了“殺雞用牛刀”的尷尬;CPU 與 GPU 的異構(gòu)協(xié)同,打破了“誰(shuí)主誰(shuí)次”的偏見(jiàn);分層實(shí)例的場(chǎng)景適配,終結(jié)了“一套方案包打天下”的粗放。這不是簡(jiǎn)單的產(chǎn)品組合,而是對(duì)算力分配邏輯的底層重構(gòu),讓每一份算力投入都能匹配對(duì)應(yīng)的業(yè)務(wù)價(jià)值,讓技術(shù)創(chuàng)新真正服務(wù)于成本與效率的平衡。
AI Agent 時(shí)代的到來(lái),將會(huì)讓這種精準(zhǔn)匹配的需求愈發(fā)迫切。推理算力的爆發(fā)式增長(zhǎng)、多模態(tài)場(chǎng)景的復(fù)雜訴求,會(huì)進(jìn)一步放大“按需分配”的重要性。而英特爾與騰訊云的合作,早已提前卡位這一趨勢(shì):從芯片到實(shí)例,從硬件到軟件,構(gòu)建起了一套“場(chǎng)景定義技術(shù)”的完整閉環(huán)。
AI 時(shí)代的算力革命,終將是一場(chǎng)“以場(chǎng)景為錨、以協(xié)同為綱”的效率革命,誰(shuí)能更深刻地洞察不同業(yè)務(wù)的算力痛點(diǎn),誰(shuí)能更高效地整合軟硬件資源形成精準(zhǔn)解決方案,誰(shuí)就能掌握 AI 落地的核心話語(yǔ)權(quán)。那些真正能夠破解“既要又要還要”困局的玩家,才能成為最終的規(guī)則制定者。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.