網易首頁 > 網易號 > 正文申請入駐

讓萬卡算力火力全開，沒那么復雜，國產AI算力，滿血前進

2026-03-15 12:35:14　來源: 甲子光年

北京舉報

分享至

讓中國算力更好地跑在中國網絡上。

萬卡集群已成AI算力標配，而決定有效算力上限的關鍵——網絡卻成掣肘。當前業(yè)界要么選供應鏈風險高的海外IB方案，要么選需專業(yè)團隊反復調參的RoCE方案。

近日，中科曙光發(fā)布了首款原生無損RDMA高速網絡scaleFabric。它試圖打破不用復雜調優(yōu)，也能讓AI集群跑出“滿血”性能的行業(yè)僵局。

1.網絡成AI算力之踵

很長一段時間里，提升算力的思路很簡單：堆疊GPU。但在真實的萬卡集群中，事情遠沒有這么容易。

若把萬卡集群比作一座超大規(guī)模城市，GPU是住宅，CPU是工廠，那么網絡就是連接一切的“道路交通系統(tǒng)”。

傳統(tǒng)RoCE方案中，這座城市的交通規(guī)則極其復雜：為了避免數據包“堵車”（丟包），工程師們設計了各種復雜的“紅綠燈系統(tǒng)”（PFC流控）和“導航策略”（ECN擁塞控制）。

這套系統(tǒng)能運轉，但異常脆弱。有人形象地比喻：RoCE網絡就像“一腳油門一腳剎車”，為了不撞車，必須時刻緊繃神經。

究其根源，RoCE本質是在傳統(tǒng)以太網基礎上“打補丁”，通過PFC（基于優(yōu)先級的流量控制）機制模擬無損環(huán)境。一旦流量突發(fā)，緩沖區(qū)瞬間占滿，PFC就會像連鎖反應般層層傳導，這腳“急剎車”，極易引發(fā)網絡擁塞的鏈式反應，造成吞吐驟降，甚至全局死鎖的風險。

這正是當前AI基建領域的隱秘痛點。

大多數企業(yè)沒有互聯網大廠那樣的專家團隊，無法常年累月地“調水線”、優(yōu)化擁塞控制算法。對他們而言，要跑出理想的訓練性能，往往要在部署周期和運維復雜度上付出巨大代價。

2.用原生網絡解決“堵車”

有沒有一種方案，能從底層設計上規(guī)避這種復雜性？曙光scaleFabric給出的答案是：回歸“原生”。

RDMA技術有三條路徑：IB、RoCE和iWARP。其中，RoCE是在廣泛部署的以太網“公路”上，通過疊加復雜的流量控制規(guī)則（PFC/ECN）來構建“高速無損”通道；而InfiniBand（IB）則是為高性能計算量身定制的“高速鐵路”，其基于信用的流控機制是與生俱來的核心設計，如同集中調度、無紅綠燈的高鐵軌道交通系統(tǒng)。

曙光此次發(fā)布的scaleFabric，是國內首個類InfiniBand原生無損RDMA方案，它不是在以太網的舊土壤上修修補補，而是從底層112G PAM4高速Serdes IP，到交換芯片、網卡芯片，再到軟件平臺，完成了全棧自研的徹底革新。

這種“原生”帶來的最直觀改變，就是“即插即用”。

基于信用的流控機制（Credit-based Flow Control），是IB網絡與生俱來的優(yōu)勢。數據傳輸前發(fā)送端會先確認接收端有足夠“空位”（緩沖區(qū)）再發(fā)車，從根本上杜絕了因資源不足導致的丟包。

相比之下，RoCE的PFC機制，往往是在接收端快撐不住時才“叫停”，這腳“急剎車”本身，就已埋下風險隱患，往往伴隨網絡性能斷崖性下跌或死鎖風險。

這意味著，采用曙光scaleFabric的AI集群，不再需要工程師反復估算、調整那根懸在頭頂的“水線”。

網絡終于回歸基礎設施的本色：穩(wěn)定、安靜，且高效。

3.部署從“天”到“小時”

底層架構的差異，最終體現在用戶最敏感的“建設周期”和“持有成本”上。

在鄭州國家超算互聯網核心節(jié)點，曙光scaleFabric經歷了一場嚴苛考驗：3套萬卡集群同步上線，從上電到完成網絡調試部署，僅用了36個小時。

這是什么概念？

傳統(tǒng)RoCE組網方案中，僅一個千卡集群的調優(yōu)，就往往以“周”為單位，涉及PFC死鎖檢測、ECN水線調整、擁塞控制策略適配等一系列復雜操作。若面對萬卡級別規(guī)模，配置復雜度和故障排查難度會指數級上升，部署周期拖至數月也并不罕見。

scaleFabric能實現36小時完成三萬卡集群部署，核心在于其集中管控、分布式轉發(fā)的架構。如果說RoCE是分布式的“各自為政”，每臺設備都需要單獨調試，那么scaleFabric就像軌道交通的“集中控制”：子網管理系統(tǒng)如同全局調度員，上電3分鐘內即可自動發(fā)現全網拓撲、完成路由計算，實現一鍵下發(fā)。對運維人員而言，相當于從“救火隊員”變身“指揮官”。

這種快速的部署與穩(wěn)定運維能力，得到了來自產品研發(fā)一線的證實。中科曙光高端計算總工程師解西國在發(fā)布會上詳細介紹了支撐scaleFabric的智能運維體系。他指出，該體系基于網絡豐富的監(jiān)控數據，構建了自動化配置管理、主動性能壓測、全棧監(jiān)控、故障診斷自愈、智能分析和數字孿生可視化六大核心能力。這套系統(tǒng)能夠自動發(fā)現并管理百萬量級的設備與端口，并通過主動壓測提前發(fā)現90%以上的隱性性能風險，從而將集群算力利用率提升20%以上。當故障發(fā)生時，能實現毫秒級的鏈路快速恢復，并通過智能體與運維知識庫結合，顯著降低超大規(guī)模網絡的運維門檻。

當一條鏈路故障時，scaleFabric的快速容錯路由能在毫秒級完成切換，且恢復時間不隨網絡規(guī)模增長而延長；而在RoCE網絡中，路由收斂往往需要秒級。這期間的訓練中斷和回滾，可能意味著幾十萬甚至上百萬的經濟損失。

4.TCO降低30%的背后

長期以來，企業(yè)在IB和RoCE之間的糾結，本質是“性能”與“成本”的博弈：IB雖好，但價格昂貴、供應不穩(wěn)；RoCE開放，但隱性運維成本極高。

曙光試圖在這場“不可能三角”中找到平衡點。

首先是顯性成本。通過自研高密度交換芯片（單芯片支持80個400G端口或40個800G口），scaleFabric的組網密度較同類產品提升25%。

這意味著組建同等規(guī)模集群時，所需交換機、光模塊和線纜數量大幅減少，綜合下來，總體網絡成本較海外主流IB方案降低約30%。

其次是隱性成本——這也是最容易被忽視的部分。

很多企業(yè)選擇RoCE，以為抓住了“性價比”，最終卻需要雇傭高薪專家團隊常年調優(yōu)。RoCE廠商常宣稱產品支持自動調節(jié)水線，但問及具體實現方式，答案往往是模糊的“AI/強化學習”，缺乏可落地的明確路徑。

而scaleFabric的“原生無損”特性，極大降低了對運維人員經驗的依賴。它把網絡配置從一門依賴直覺的“藝術”，變成了一門標準化的“科學”。

對于大多數不具備互聯網大廠自研能力的傳統(tǒng)企業(yè)、科研機構和高校計算中心而言，這種“開箱即用”的確定性，本身就是最大的性價比。

這種“確定性”直接轉化為可量化的系統(tǒng)效能提升。中科曙光工業(yè)計算方案總監(jiān)姚浪從系統(tǒng)工程角度分析指出，在大規(guī)模并行計算中，計算、存儲、網絡任何一個環(huán)節(jié)成為瓶頸，整體效率都會急劇下降，在萬卡規(guī)模下，這種不平衡會被指數級放大。他以工業(yè)仿真為例，當并行規(guī)模達到2048核時，通信時間占比可接近50%。姚浪提供的實測數據顯示，在并行計算場景中，采用scaleFabric的方案效率可達85%左右，而傳統(tǒng)RoCE方案效率約為65%，這意味著有效算力利用率可提升20%以上。在商業(yè)軟件測試中，scaleFabric性能達到國際主流同類產品（英偉達NDR 400G網絡）的96%-105%。這證明，選擇高性能網絡不僅是保障穩(wěn)定，更是直接提升算力資產回報率的關鍵。

5.跑贏AI算力的開放邏輯

scaleFabric的意義，遠不止一款產品的問世，更在于它為中國AI算力生態(tài)，提供了一個“開放的基礎設施基座”。

中科曙光并未選擇封閉自研的路線。在光合組織AI計算開放架構框架下，曙光牽頭成立“AIDC高速網絡工作組”，攜手十多家軟硬件合作伙伴，共同開展場景化方案的聯合研發(fā)。

scaleFabric不僅是國產的，更是開放的。

它原生兼容IB應用生態(tài)，支持主流通信庫接口，PyTorch、OpenMPI等常用框架無需修改代碼，即可無縫遷移。

其技術先進性與開放兼容性，在科研與產業(yè)最前沿的應用中得到了交叉驗證。在科研領域，通信是制約算力擴展的核心瓶頸。中國科學院計算技術研究所專家王展的測試結果顯示，scaleFabric在單QP通信性能、多QP性能以及端到端延遲等關鍵微觀指標上，與國際領先產品相當甚至部分更優(yōu)。王展特別指出，其“即插即用”的部署體驗和對國產CPU的良好耦合，為科學智能（AI for Science）這類前沿探索提供了可靠的底層支撐。

在產業(yè)落地層面，scaleFabric瞄準的是最嚴苛的超大規(guī)模智算場景。科大訊飛AI工程院智算基礎設施架構師鮑中帥結合產業(yè)實踐分享道，當前AI發(fā)展正從訓練擴展到推理，亟需強大而穩(wěn)定的智算底座。曙光在鄭州國家超算互聯網核心節(jié)點部署的scaleX超集群，單機柜集成640張GPU加速卡，正是scaleFabric支撐超萬卡集群能力的集中體現。鮑中帥認為，對于企業(yè)用戶而言，scaleFabric與RoCE并非簡單替代關系，而是針對不同場景的選項。在追求極致性能、確定性和超大規(guī)模擴展的智算集群中，原生無損的scaleFabric提供了關鍵基礎；而在其他場景，產業(yè)界也在持續(xù)優(yōu)化RoCE方案。這種“雙軌”推進的策略，體現了國產算力生態(tài)的務實與開放。

與此同時，曙光正聯合產業(yè)鏈上下游，推動自主網絡標準的制定與優(yōu)化實踐，讓中國AI算力不再依賴單一技術路線的“舶來品”，走出一條“開放協作、共同定義”的自主發(fā)展之路。

2026年伊始，中國移動就啟動了10億元RoCE交換機集采，而隨著國產原生RDMA技術的突破和產品落地，算力網絡的國產化替代也全面進入深水區(qū)。

中科曙光scaleFabric的出現，不僅填補了國內原生RDMA網絡的技術空白，更重要的是，它提供了一種新的范式思考：在追求極致性能的道路上，我們不一定要通過復雜度的飆升來換取。scaleFabric通過集中控制、信用流控和全棧自研，將底層復雜性徹底封裝。

讓中國算力，更好地跑在中國網絡上。當網絡不再需要費心“伺候”，當部署周期從數月縮短至數十小時，AI創(chuàng)新的腳步，才能真正輕盈起來。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.