通信世界網(wǎng)消息(CWW)AI大模型及人工智能產(chǎn)業(yè)的快速發(fā)展,催生了大量算力缺口,我國新增算力基礎(chǔ)設(shè)施中智能算力占比已過半。智能算力需求結(jié)構(gòu)也從以往少數(shù)千億、萬億參數(shù)模型集中消耗的一次性大規(guī)模訓(xùn)練算力,轉(zhuǎn)變?yōu)榍邪贅I(yè)驅(qū)動(dòng)的“持續(xù)性推理主導(dǎo)、周期性訓(xùn)練為輔”的雙軌算力需求新格局。面對算力需求的新格局,浙江電信主動(dòng)推進(jìn)算力布局優(yōu)化與算網(wǎng)融合實(shí)踐,將省級(jí)范圍內(nèi)的算力節(jié)點(diǎn)布局逐步收斂至“4+11+X”,層次化滿足各類用算需要:即在省內(nèi)部署個(gè)位數(shù)超大型訓(xùn)推一體算力樞紐,在各地市部署以推理為主的區(qū)域級(jí)公有算力資源池,在近用戶側(cè)按需部署邊緣算力節(jié)點(diǎn)。同時(shí),持續(xù)完善無損算力網(wǎng)絡(luò)基礎(chǔ)設(shè)施,形成以算力節(jié)點(diǎn)為中心向外延伸500千米的算力輻射圈,滿足省內(nèi)任意地點(diǎn)彈性用算、鄰間調(diào)算、數(shù)據(jù)安全保障以及算力互聯(lián)并網(wǎng)的需求,為接入長三角算力聯(lián)合體筑牢基礎(chǔ)。
需求分析
大模型興起
大語言模型(LLM)日益增加的訓(xùn)練和推理任務(wù),推動(dòng)算力需求急劇增長。同時(shí),DeepSeek通過關(guān)鍵架構(gòu)創(chuàng)新與工程優(yōu)化,以極低的訓(xùn)練成本打造出具備頂尖能力的模型。相關(guān)報(bào)告顯示,2025年上半年中國企業(yè)級(jí)市場日均調(diào)用量達(dá)10.2萬億Tokens,人工智能正于推理端開啟規(guī)模化價(jià)值創(chuàng)造。
尖端AI訓(xùn)練芯片被禁運(yùn),單中心算力資源受限
全球半導(dǎo)體產(chǎn)業(yè)的競爭與地緣政治因素疊加,導(dǎo)致我國在獲取尖端AI訓(xùn)練芯片方面面臨嚴(yán)峻挑戰(zhàn)。單一實(shí)體所能獲取和部署的算力規(guī)模存在上限,“單點(diǎn)超大規(guī)模智算中心”的建設(shè)模式遭遇瓶頸。在此背景下,整合區(qū)域內(nèi)分散、多廠商、異構(gòu)的算力資源,構(gòu)建協(xié)同調(diào)度的“算力艦隊(duì)”,成為突破單點(diǎn)算力“天花板”、應(yīng)對模型規(guī)模持續(xù)增長的必然選擇。
算力供給與電力消耗正相關(guān),省域范圍內(nèi)算力呈分散分布狀態(tài)
智算中心的運(yùn)行伴隨著巨大的電力消耗,其選址與當(dāng)?shù)啬茉垂┙o能力、PUE(電能使用效率)指標(biāo)緊密相關(guān),算力基礎(chǔ)設(shè)施自然向能源富集、氣候適宜的地區(qū)部署。這使得省級(jí)行政區(qū)域內(nèi)的算力資源呈現(xiàn)“核心—區(qū)域—邊緣”的多層次、分散化格局。
用算企業(yè)對輕資產(chǎn)運(yùn)營的期望與對數(shù)據(jù)安全的擔(dān)憂
對于廣大傳統(tǒng)行業(yè)企業(yè)而言,自建并維護(hù)大規(guī)模的智算集群意味著沉重的資本開支和運(yùn)維負(fù)擔(dān)。它們更傾向于采用“算力即服務(wù)”的模式,按需獲取、按使用付費(fèi),實(shí)現(xiàn)輕資產(chǎn)運(yùn)營。然而,將核心業(yè)務(wù)的訓(xùn)練與推理數(shù)據(jù)上傳至第三方算力中心,也引發(fā)了企業(yè)對于數(shù)據(jù)隱私和商業(yè)機(jī)密泄露的深切擔(dān)憂。
技術(shù)選擇
為應(yīng)對上述挑戰(zhàn),浙江電信、溫州數(shù)據(jù)集團(tuán)與華為攜手打造了邊云協(xié)同分布式安全訓(xùn)推解決方案。該方案構(gòu)建廣域超長距RoCE(即基于融合以太網(wǎng)的遠(yuǎn)程直接內(nèi)存訪問)無損傳輸能力與訓(xùn)推模型切割部署能力,將企業(yè)側(cè)輕量級(jí)算力與智算中心算力池,通過基于新型架構(gòu)的AI WAN高算效廣域網(wǎng)實(shí)現(xiàn)超長距協(xié)同整合,滿足“數(shù)據(jù)不出域”“算力彈性擴(kuò)展”等關(guān)鍵需求。實(shí)施“以網(wǎng)強(qiáng)算”策略,對精準(zhǔn)響應(yīng)市場核心訴求、推動(dòng)產(chǎn)業(yè)智能化升級(jí)具有重要意義。
廣域超長距RoCE無損傳輸能力
為達(dá)成算力之間的高速互聯(lián),業(yè)界采用了RoCE和IB(無限帶寬)兩種通信協(xié)議方案。其中IB協(xié)議私有化屬性較強(qiáng),且整體成本過高;而RoCE協(xié)議擴(kuò)展性更好,有利于標(biāo)準(zhǔn)化發(fā)展。因此,邊云協(xié)同分布式安全訓(xùn)推解決方案的網(wǎng)絡(luò)通信協(xié)議選擇基于RoCE協(xié)議進(jìn)一步升級(jí)。
傳統(tǒng)的RoCE協(xié)議在面對廣域網(wǎng)復(fù)雜的組網(wǎng)環(huán)境、超長的轉(zhuǎn)發(fā)距離時(shí),易出現(xiàn)負(fù)載不均與擁塞問題,造成吞吐性能瓶頸。另一方面,RoCE協(xié)議對丟包極為敏感,僅千分之一的丟包率就可能導(dǎo)致傳輸性能下降50%。為解決以上問題,浙江電信與華為聯(lián)合創(chuàng)新了廣域超長距RoCE無損傳輸?shù)膬纱箨P(guān)鍵技術(shù)。
一是租戶級(jí)精準(zhǔn)流控機(jī)制。在AI WAN的“IPv6+”底座之上,新型AI路由器以租戶為單位對數(shù)據(jù)包進(jìn)行智能緩存。若緩存達(dá)到預(yù)設(shè)閾值,系統(tǒng)將按租戶粒度向上游設(shè)備發(fā)送反壓信號(hào),逐級(jí)傳遞直至流量源頭,從而確保不同租戶間的網(wǎng)絡(luò)擁塞互不干擾,實(shí)現(xiàn)超百千米級(jí)RoCE“零丟包”傳輸。此項(xiàng)技術(shù)解決了傳統(tǒng)網(wǎng)絡(luò)因輕微丟包導(dǎo)致吞吐量驟降的問題,使超長距離AI訓(xùn)練、推理效率提升至95%以上,并實(shí)現(xiàn)租戶級(jí)擁塞隔離,有效規(guī)避了傳統(tǒng)PFC(功率因數(shù)校正)技術(shù)在廣域場景下易引發(fā)的頭部阻塞及擁塞擴(kuò)散等缺陷,為超長距的邊云算力協(xié)同奠定可靠基礎(chǔ)。
二是流級(jí)動(dòng)態(tài)負(fù)載均衡技術(shù)。針對智算業(yè)務(wù)大象流帶來的挑戰(zhàn),基于AI路由器的微秒級(jí)大象流識(shí)別技術(shù),可實(shí)現(xiàn)捕捉全網(wǎng)大象流99%準(zhǔn)確率并上報(bào)至管控平臺(tái)。結(jié)合流級(jí)自適應(yīng)調(diào)度算法,根據(jù)實(shí)時(shí)網(wǎng)絡(luò)狀態(tài)為不同流量動(dòng)態(tài)分配傳輸路徑,從而實(shí)現(xiàn)廣域網(wǎng)絡(luò)的全局負(fù)載均衡,整體吞吐率超過95%。該機(jī)制克服了傳統(tǒng)ECMP(等價(jià)路由)算法因無法識(shí)別流速大小而導(dǎo)致的鏈路負(fù)載不均、吞吐率低下等問題。
訓(xùn)推模型切割部署能力
為解決企業(yè)用戶使用云上算力時(shí)對“數(shù)據(jù)不出域”的安全需求,在本次訓(xùn)推一體創(chuàng)新合作中,浙江電信聯(lián)合華為推出訓(xùn)推模型切割部署架構(gòu)。在AI訓(xùn)推業(yè)務(wù)中,將模型首尾層部署于本地,中間層部署于云端。通過企業(yè)側(cè)部署的少量算力,完成模型訓(xùn)推中的首尾層計(jì)算,保障輸入和輸出的原始數(shù)據(jù)100%不出域;通過AI WAN跨越數(shù)百千米,將高維向量數(shù)據(jù)傳輸至智算中心,實(shí)現(xiàn)數(shù)據(jù)可用不可見,且中間層數(shù)據(jù)不可被還原。云上算力則完成中間層計(jì)算,滿足大計(jì)算量的資源需求。該架構(gòu)既滿足“數(shù)據(jù)不出園區(qū)”的安全要求,又支持算力在數(shù)百千米超遠(yuǎn)距離上的靈活擴(kuò)展,與基準(zhǔn)數(shù)據(jù)相比,整體計(jì)算效率達(dá)95%以上。反觀傳統(tǒng)加密傳輸方案,僅能保障數(shù)據(jù)在轉(zhuǎn)發(fā)過程中的安全,無法覆蓋云上計(jì)算環(huán)節(jié)的數(shù)據(jù)安全,也無法保障模型本身的安全。
方案設(shè)計(jì)
浙江電信通過打造區(qū)域級(jí)訓(xùn)推一體無損網(wǎng)絡(luò),構(gòu)建起一張覆蓋區(qū)域、具備智算中心級(jí)性能的廣域網(wǎng)絡(luò),將分散的算力節(jié)點(diǎn)整合成虛擬且統(tǒng)一的“超級(jí)計(jì)算機(jī)”;同時(shí)依托創(chuàng)新的分布式人工智能技術(shù),保障業(yè)務(wù)邏輯可靠與數(shù)據(jù)安全。如圖1所示,該網(wǎng)絡(luò)與浙江電信“4+11+X”算力布局精準(zhǔn)匹配,形成“中心訓(xùn)練樞紐—地市推理資源池—邊緣算力節(jié)點(diǎn)”的三級(jí)云邊協(xié)同體系。
中心訓(xùn)練樞紐(4個(gè)):在嘉善、杭州、金華、寧波布局省級(jí)區(qū)域節(jié)點(diǎn),承擔(dān)大規(guī)模、周期性的模型訓(xùn)練與微調(diào)任務(wù)。這類節(jié)點(diǎn)具備區(qū)域內(nèi)最高算力密度,是全省算力網(wǎng)絡(luò)的核心基石。
地市推理資源池(11個(gè)):在11個(gè)地市設(shè)置匯聚節(jié)點(diǎn),主要承載高并發(fā)、低時(shí)延的在線推理服務(wù),滿足地市級(jí)實(shí)時(shí)業(yè)務(wù)需求。
邊緣算力節(jié)點(diǎn)(X個(gè)):部署于靠近數(shù)據(jù)源頭(如工廠、醫(yī)院)的位置,處理對時(shí)延極度敏感或數(shù)據(jù)隱私要求極高的推理任務(wù)。
![]()
圖1 浙江電信區(qū)域級(jí)訓(xùn)推一體無損網(wǎng)絡(luò)架構(gòu)
區(qū)域級(jí)無損網(wǎng)絡(luò)如同“中樞神經(jīng)系統(tǒng)”,將各層級(jí)的算力節(jié)點(diǎn)高速互聯(lián),實(shí)現(xiàn)算力的統(tǒng)一納管、彈性伸縮和跨DC(數(shù)據(jù)通道)調(diào)度。當(dāng)企業(yè)需要使用算力資源時(shí),可依托訓(xùn)推模型切割部署的云邊協(xié)同分布式訓(xùn)推方案,在保證企業(yè)數(shù)據(jù)安全前提下,按需取用智算中心的算力(如圖2所示)。
![]()
圖2 云邊協(xié)同分布式訓(xùn)推方案
該方案通過云邊協(xié)同的分布式訓(xùn)推架構(gòu)與分割學(xué)習(xí)技術(shù),保障企業(yè)“數(shù)據(jù)不出域”;同時(shí)依托廣域網(wǎng)環(huán)境下的租戶級(jí)精準(zhǔn)流控機(jī)制與流級(jí)動(dòng)態(tài)負(fù)載均衡技術(shù),實(shí)現(xiàn)跨數(shù)據(jù)中心的高吞吐、低損耗算力協(xié)同,為區(qū)域內(nèi)算力資源的互聯(lián)互通與高效調(diào)度提供了可行路徑。
結(jié)語
區(qū)域級(jí)訓(xùn)推一體無損網(wǎng)絡(luò)是應(yīng)對當(dāng)前大模型算力需求激增、企業(yè)數(shù)據(jù)安全與輕資產(chǎn)運(yùn)營訴求日益迫切等挑戰(zhàn)的一次創(chuàng)新嘗試。該方案通過技術(shù)創(chuàng)新,實(shí)現(xiàn)了三大價(jià)值。
算力普惠化:它將區(qū)域內(nèi)分散、異構(gòu)的算力資源整合成一個(gè)統(tǒng)一、彈性的算力服務(wù)池,使得中小企業(yè)也能像用水、用電一樣,便捷、按需、低成本地獲取頂尖的AI算力,極大地降低了智能化轉(zhuǎn)型的門檻。
數(shù)據(jù)安全化:通過分割學(xué)習(xí)等隱私計(jì)算技術(shù)的應(yīng)用,在提供強(qiáng)大算力支持的同時(shí),嚴(yán)守“數(shù)據(jù)不出域”的底線,徹底解除企業(yè)上云用算的后顧之憂,為金融、醫(yī)療、政務(wù)等敏感領(lǐng)域的AI應(yīng)用掃清了障礙。
產(chǎn)業(yè)智能化:一張高性能的算力網(wǎng)絡(luò),是支撐“人工智能+”戰(zhàn)略落地的關(guān)鍵基礎(chǔ)設(shè)施。它使得AI能力可以像血液一樣,在區(qū)域經(jīng)濟(jì)的“毛細(xì)血管”(邊緣節(jié)點(diǎn))中順暢流動(dòng),從而賦能千行百業(yè),加速全社會(huì)從“互聯(lián)網(wǎng)+”向“AI+”演進(jìn)。
展望未來,隨著算網(wǎng)融合技術(shù)的持續(xù)深化,區(qū)域級(jí)訓(xùn)推一體無損網(wǎng)絡(luò)將成為構(gòu)建國家一體化算力體系的重要基石,為我國在新一輪全球科技競爭中贏得優(yōu)勢提供堅(jiān)實(shí)的底座支撐。
*本篇刊載于《通信世界》2025年12月10日*
第23期 總981期
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.