通信世界網(wǎng)消息(CWW)當(dāng)AI大模型參數(shù)邁向萬(wàn)億級(jí),萬(wàn)卡乃至十萬(wàn)卡級(jí)智算集群成為行業(yè)標(biāo)配,網(wǎng)絡(luò)通信不再是簡(jiǎn)單的數(shù)據(jù)通道,而是決定算力效率的核心大動(dòng)脈。
3月12日,中科曙光正式發(fā)布首款全棧自研400G無(wú)損高速網(wǎng)絡(luò)——scaleFabric,實(shí)現(xiàn)國(guó)產(chǎn)高端原生RDMA技術(shù)重大突破,一舉填補(bǔ)國(guó)內(nèi)超大規(guī)模智算互聯(lián)領(lǐng)域的空白。
![]()
這款從底層芯片到上層軟件100%自主研發(fā)的產(chǎn)品,不僅性能比肩國(guó)際頂尖水平,更讓中國(guó)智算產(chǎn)業(yè)擺脫了高端高速網(wǎng)絡(luò)的“卡脖子”困境,為國(guó)家算力基礎(chǔ)設(shè)施安全筑牢了技術(shù)根基。
網(wǎng)絡(luò)成智算互聯(lián)致命短板
AI大模型的飛速發(fā)展,讓智算集群的規(guī)模不斷突破,萬(wàn)卡級(jí)已成主流,十萬(wàn)卡級(jí)成為未來(lái)發(fā)展方向。但一個(gè)殘酷的現(xiàn)實(shí)是,大規(guī)模分布式訓(xùn)練中,網(wǎng)絡(luò)通信耗時(shí)占比已達(dá)到30-50%,網(wǎng)絡(luò)性能直接決定了算力系統(tǒng)的實(shí)際效能。
“計(jì)算決定了計(jì)算系統(tǒng)性能的上限,但是如果網(wǎng)絡(luò)系統(tǒng)拉垮的話,有可能會(huì)把整個(gè)性能下限歸零。”中科曙光高級(jí)副總裁李斌在發(fā)布會(huì)中直言,從邊緣計(jì)算到AI大模型訓(xùn)練,行業(yè)對(duì)網(wǎng)絡(luò)的要求愈發(fā)苛刻,網(wǎng)絡(luò)已成為大規(guī)模智算集群的核心關(guān)鍵。
更嚴(yán)峻的是,高端智算集群必需的RDMA(遠(yuǎn)程直接內(nèi)存訪問(wèn))網(wǎng)絡(luò)技術(shù),長(zhǎng)期被海外廠商牢牢壟斷。作為當(dāng)前全球頂級(jí)超算與AI集群的主流選擇,InfiniBand網(wǎng)絡(luò)(IB網(wǎng)絡(luò))憑借低時(shí)延與原生無(wú)損傳輸能力占據(jù)全球約60%的高性能計(jì)算系統(tǒng)市場(chǎng),但從高速SerDes IP、核心芯片到IB網(wǎng)卡、IB交換機(jī),整條產(chǎn)業(yè)鏈基本被海外企業(yè)掌控。2020年邁絡(luò)思被英偉達(dá)收購(gòu)后,國(guó)內(nèi)市場(chǎng)更是面臨供貨受限、成本高昂、維保困難的三重壓力,中國(guó)的計(jì)算產(chǎn)業(yè)發(fā)展,已經(jīng)感受到了網(wǎng)絡(luò)‘卡脖子’的危機(jī)。
與此同時(shí),國(guó)內(nèi)現(xiàn)有替代方案均存在明顯短板。傳統(tǒng)以太網(wǎng)完全無(wú)法滿足低延遲、真無(wú)損的智算需求;基于以太網(wǎng)嫁接RDMA技術(shù)的RoCE網(wǎng)絡(luò),不僅帶寬低、時(shí)延高,還存在運(yùn)維復(fù)雜、大規(guī)模組網(wǎng)能力弱的問(wèn)題,且核心網(wǎng)卡仍依賴英偉達(dá)CX系列,國(guó)產(chǎn)化程度嚴(yán)重不足。
中國(guó)工程院院士鄔賀銓指出,高速網(wǎng)絡(luò)作為算力基礎(chǔ)設(shè)施的核心關(guān)鍵技術(shù),其自主可控性直接關(guān)系到國(guó)家算力基礎(chǔ)設(shè)施的安全與發(fā)展質(zhì)量。在大模型訓(xùn)練和智算集群規(guī)模化部署背景下,網(wǎng)絡(luò)需要同時(shí)具備超低延遲、超高帶寬與無(wú)損傳輸能力,而RDMA高速網(wǎng)絡(luò)正是智算集群的“算力大動(dòng)脈”。
全棧自研造“算力大動(dòng)脈”,性能對(duì)標(biāo)國(guó)際頂尖
面對(duì)行業(yè)困局,中科曙光歷時(shí)三年研發(fā),終于打造出scaleFabric這款國(guó)產(chǎn)原生無(wú)損RDMA高速網(wǎng)絡(luò)產(chǎn)品,實(shí)現(xiàn)了從底層112G SerDes IP、交換芯片、網(wǎng)卡到交換機(jī)、驅(qū)動(dòng)與管理軟件的全棧自研,構(gòu)建起完整的自主技術(shù)體系。
“我們最開始做的時(shí)候,也沒(méi)有那么多信心能達(dá)到IB的水平,這個(gè)過(guò)程確實(shí)經(jīng)歷了很多艱辛,最核心的鏈路技術(shù)終于在國(guó)家的支持下做成了。”中科曙光高速網(wǎng)絡(luò)互聯(lián)產(chǎn)品部總工程師萬(wàn)偉向記者道出了研發(fā)背后的挑戰(zhàn)。
而這份艱辛,最終換來(lái)了比肩甚至趕超國(guó)際頂尖水平的硬核性能。在核心指標(biāo)上,scaleFabric展現(xiàn)出強(qiáng)大的技術(shù)實(shí)力:scaleFabric400網(wǎng)卡基于PCIe5.0接口,端口帶寬達(dá)400Gbps,端到端通信時(shí)延低至0.9微秒,這和英偉達(dá)CX7在同一個(gè)水平線上。
![]()
穩(wěn)定性與擴(kuò)展性的突破,更是直擊行業(yè)痛點(diǎn)。該產(chǎn)品采用基于信用的無(wú)損流控機(jī)制,從根源規(guī)避擁塞丟包風(fēng)險(xiǎn),搭配自研的112G SerDes IP,實(shí)現(xiàn)了業(yè)內(nèi)領(lǐng)先的驅(qū)動(dòng)能力,為鏈路穩(wěn)定性筑牢基礎(chǔ);鏈路故障恢復(fù)時(shí)間小于1毫秒,“時(shí)延不會(huì)隨著網(wǎng)絡(luò)規(guī)模的增長(zhǎng)而增長(zhǎng),保障應(yīng)用無(wú)感。”萬(wàn)偉表示。
目前,scaleFabric已支撐近萬(wàn)卡集群持續(xù)穩(wěn)定運(yùn)行驗(yàn)證超10個(gè)月,在國(guó)家超算互聯(lián)網(wǎng)鄭州核心節(jié)點(diǎn),更是支撐三套萬(wàn)卡級(jí)scaleX智算集群上線運(yùn)行,總規(guī)模達(dá)3萬(wàn)卡,完成了國(guó)產(chǎn)最大規(guī)模的真實(shí)負(fù)載驗(yàn)證。
在組網(wǎng)能力與成本上,scaleFabric單子網(wǎng)互連規(guī)模可達(dá)11.4萬(wàn)卡,是傳統(tǒng)IB的2.33倍,“能輕松支持十萬(wàn)卡級(jí)集群部署,而從萬(wàn)卡到十萬(wàn)卡的突破,最核心的技術(shù)正是來(lái)自互聯(lián)系統(tǒng)。”李斌強(qiáng)調(diào);同時(shí),相比國(guó)外同類產(chǎn)品,scaleFabric的網(wǎng)絡(luò)總成本可降低30%,在實(shí)現(xiàn)高性能的同時(shí),大幅提升了產(chǎn)品的市場(chǎng)性價(jià)比。
三重賦能,夯實(shí)智算自主底座
scaleFabric的發(fā)布,不僅是一款產(chǎn)品的技術(shù)突破,更是我國(guó)智算產(chǎn)業(yè)在高端高速網(wǎng)絡(luò)領(lǐng)域的里程碑事件,為行業(yè)發(fā)展帶來(lái)三重核心賦能,更推動(dòng)了國(guó)產(chǎn)智算生態(tài)的重構(gòu)。
一是補(bǔ)齊產(chǎn)業(yè)短板,筑牢國(guó)家算力安全防線。作為國(guó)內(nèi)首款原生無(wú)損RDMA高速網(wǎng)絡(luò),scaleFabric打破了海外廠商在高端RDMA領(lǐng)域的長(zhǎng)期壟斷,讓我國(guó)智算基礎(chǔ)設(shè)施實(shí)現(xiàn)了“算—存—網(wǎng)”的協(xié)同發(fā)展。“scaleFabric本身定位為超大算力規(guī)模基礎(chǔ)設(shè)施最重要的環(huán)節(jié),與芯片、存儲(chǔ)缺一不可,是算力基礎(chǔ)設(shè)施的核心組成部分。”李斌在媒體群訪中明確了產(chǎn)品的核心定位,而這款產(chǎn)品的落地,也意味著我國(guó)在智算互聯(lián)這一關(guān)鍵環(huán)節(jié)形成了自主技術(shù)路徑,徹底擺脫了對(duì)海外高端高速網(wǎng)絡(luò)設(shè)備的依賴。
二是釋放海量算力,提升全行業(yè)研發(fā)與生產(chǎn)效率。網(wǎng)絡(luò)瓶頸的打破,讓智算集群的算力得以充分釋放。在AI大模型訓(xùn)練中,scaleFabric讓典型訓(xùn)練任務(wù)的網(wǎng)絡(luò)效率大幅提升。
在工程計(jì)算領(lǐng)域,更是實(shí)現(xiàn)了通信開銷的大幅降低,“傳統(tǒng)工程計(jì)算軟件的網(wǎng)絡(luò)通信開銷基本能達(dá)到40%以上,基于scaleFabric優(yōu)化后,輻照材料分子動(dòng)力學(xué)軟件的通信開銷從50%降至10%,并行效率從千卡到萬(wàn)卡保持86%。”北京科技大學(xué)計(jì)算機(jī)與通信學(xué)院儲(chǔ)根深在發(fā)布會(huì)中分享了實(shí)際應(yīng)用效果,他還表示,硬件上補(bǔ)齊通信性能后,應(yīng)用軟件能更充分地利用計(jì)算資源,“之前算力利用率能到百分之六七十,現(xiàn)在能到80%、90%。”
對(duì)于高端制造、生命科學(xué)、能源勘探等需要大規(guī)模并行計(jì)算的領(lǐng)域,算力效率的提升直接意味著研發(fā)周期的縮短和創(chuàng)新效率的提高。以工業(yè)仿真為例,延遲每增加10微秒,整體效能就會(huì)下降20%,而scaleFabric的低時(shí)延特性,能最大程度保障仿真計(jì)算的效率與精度,為產(chǎn)業(yè)升級(jí)提供核心算力支撐。
三是推動(dòng)生態(tài)共建,凝聚國(guó)產(chǎn)智算產(chǎn)業(yè)合力。曙光在打造scaleFabric的同時(shí),始終秉持極致開放的態(tài)度,致力于推動(dòng)國(guó)產(chǎn)高性能網(wǎng)絡(luò)生態(tài)的建設(shè)。發(fā)布會(huì)上,光合組織高性能計(jì)算專委會(huì)AIDC高速網(wǎng)絡(luò)工作組正式成立,曙光攜手聯(lián)想開天、中興通訊等眾多產(chǎn)業(yè)鏈伙伴,共同推動(dòng)國(guó)產(chǎn)高速網(wǎng)絡(luò)的生態(tài)發(fā)展。
“未來(lái)我們會(huì)把相關(guān)的技術(shù)開放出來(lái),建立統(tǒng)一標(biāo)準(zhǔn),打造生態(tài)適配系統(tǒng),聯(lián)合科研力量做好產(chǎn)學(xué)研用體系。”曙光信息產(chǎn)業(yè)(北京)有限公司副總裁李柳向記者介紹了生態(tài)建設(shè)的核心方向。
李斌也表示,曙光不會(huì)走封閉的生態(tài)路線,而是希望“把整個(gè)技術(shù)做開放,市場(chǎng)的蛋糕大家共享”,不僅會(huì)讓scaleFabric適配國(guó)內(nèi)不同的算力芯片,還會(huì)推動(dòng)芯片互聯(lián)協(xié)議的共享,與產(chǎn)業(yè)鏈上下游緊密合作,讓國(guó)產(chǎn)智算產(chǎn)業(yè)形成合力。而儲(chǔ)根深也認(rèn)為,曙光scaleFabric的出現(xiàn),為國(guó)產(chǎn)高速網(wǎng)絡(luò)生態(tài)建設(shè)奠定了硬件基礎(chǔ),“曙光的生態(tài)建設(shè)需要大的環(huán)境和單位來(lái)支持,未來(lái)隨著更多伙伴的加入,生態(tài)會(huì)不斷發(fā)展壯大。”
國(guó)產(chǎn)智算邁入高速發(fā)展新階段
隨著scaleFabric的發(fā)布與落地,我國(guó)智算產(chǎn)業(yè)正式邁入了高端高速網(wǎng)絡(luò)自主可控的新階段,而這也為超大規(guī)模智算集群的建設(shè)鋪平了道路。
“去年千億級(jí)參數(shù)模型讓大家震撼,今年已經(jīng)進(jìn)入萬(wàn)億級(jí)參數(shù)時(shí)代,未來(lái)萬(wàn)卡、十萬(wàn)卡集群會(huì)成為常態(tài)化的算力需求。”李柳表示,面對(duì)這樣的行業(yè)趨勢(shì),scaleFabric的超高可靠、超高擴(kuò)展特性,正是為未來(lái)的超大規(guī)模智算集群量身打造。
李斌在媒體群訪中預(yù)判,未來(lái)高速互聯(lián)市場(chǎng)的空間將迎來(lái)爆發(fā)式增長(zhǎng),“相比原來(lái)的數(shù)據(jù)中心高速網(wǎng)絡(luò)用量,基本上會(huì)提高10到20倍,因?yàn)楝F(xiàn)在以GPU為中心的計(jì)算節(jié)點(diǎn),一臺(tái)機(jī)器會(huì)出八張或者更多的網(wǎng)卡,網(wǎng)絡(luò)端口的增量非常明顯。”而scaleFabric作為國(guó)產(chǎn)IB技術(shù)路線的核心產(chǎn)品,將在這一市場(chǎng)中實(shí)現(xiàn)對(duì)國(guó)外產(chǎn)品的國(guó)產(chǎn)化替代,“我們期待在IB的技術(shù)路線上實(shí)現(xiàn)技術(shù)和市場(chǎng)占比的雙重替代。”
同時(shí),scaleFabric的落地也為全國(guó)一體化算力網(wǎng)的建設(shè)提供了核心支撐。當(dāng)前國(guó)家正推進(jìn)“十五五”一體化全國(guó)算力網(wǎng)的構(gòu)建,而國(guó)家超算互聯(lián)網(wǎng)作為重要試點(diǎn),已經(jīng)納入全國(guó)一體化算力網(wǎng)系統(tǒng)。
“未來(lái)的算力網(wǎng)會(huì)讓算力用起來(lái)像用電、用水一樣方便,且會(huì)更貼近用戶,不是提供冷冰冰的算力,而是幫用戶解決實(shí)際問(wèn)題。”李斌描繪了未來(lái)算力網(wǎng)的發(fā)展方向,而scaleFabric作為自主可控的“算力大動(dòng)脈”,將成為連接全國(guó)算力節(jié)點(diǎn)的核心紐帶,推動(dòng)算力資源的跨區(qū)域調(diào)度與高效利用。
從技術(shù)突破到產(chǎn)業(yè)落地,從生態(tài)共建到算力網(wǎng)支撐,中科曙光scaleFabric的發(fā)布,不僅為國(guó)產(chǎn)智算產(chǎn)業(yè)注入了全新動(dòng)能,更讓中國(guó)算力擁有了屬于自己的“高速通路”。在“人工智能+”的國(guó)家戰(zhàn)略指引下,這款自主研發(fā)的高端高速網(wǎng)絡(luò)產(chǎn)品,將與國(guó)產(chǎn)算力芯片、存儲(chǔ)產(chǎn)品協(xié)同發(fā)展,共同構(gòu)建起自主可控的算力底座,推動(dòng)我國(guó)智算產(chǎn)業(yè)從跟跑到并跑、再到領(lǐng)跑,讓中國(guó)算力更好地跑在中國(guó)網(wǎng)絡(luò)上。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.