隨著AI浪潮的不斷發(fā)展,人們越來越強(qiáng)烈地意識到:除了算力之外,運(yùn)力對于發(fā)展AI也同樣重要。
AI智算,說白了,就是算力結(jié)合算法,對數(shù)據(jù)進(jìn)行處理。而如何將數(shù)據(jù)輸送給算力,或者將算力輸送給數(shù)據(jù),就是運(yùn)力所要面對的問題。
AI智算需要海量算力,數(shù)據(jù)規(guī)模也空前龐大。傳統(tǒng)的通信技術(shù)根本無法提供所對應(yīng)的運(yùn)力。所以,新一輪運(yùn)力技術(shù)革命,已經(jīng)全面啟動(dòng)。
在這輪技術(shù)革命中,最大的主角,就是光通信。
目前,業(yè)界已經(jīng)達(dá)成共識:光通信一定是支撐AI浪潮的基石,但傳統(tǒng)光網(wǎng)絡(luò)在面對AI智算帶來的海量數(shù)據(jù)傳輸需求時(shí),仍然存在不足。因此,需要在性能、靈活性、可靠性、安全性等方面進(jìn)行全面升級演進(jìn)。推動(dòng)“全光運(yùn)力”持續(xù)創(chuàng)新、打通“毫秒用算”通道,是現(xiàn)階段光通信發(fā)展的重要目標(biāo)。
業(yè)界有不少企業(yè)在探索如何構(gòu)建AI時(shí)代的光互聯(lián)網(wǎng)絡(luò),也提出了一些技術(shù)路線。在今年的517電信日、中國國際信息通信展等多場產(chǎn)業(yè)活動(dòng)中,來自運(yùn)營商、設(shè)備商及業(yè)內(nèi)企業(yè)的專家們紛紛介紹了各自對光網(wǎng)絡(luò)與AI技術(shù)深度融合的理解。
其中,華為光傳送領(lǐng)域總裁谷云波提到的AI-OTN架構(gòu),成功吸引了大家的關(guān)注。
![]()
這個(gè)架構(gòu)充分考慮了AI時(shí)代的場景需求,旨在為快速發(fā)展的AI應(yīng)用構(gòu)建確定性、毫秒級的高品質(zhì)全光底座,非常有參考性。
接下來,小棗君就給大家做個(gè)深入解讀。
█OTN for AI,全光升級助力AI浪潮
AI-OTN,顧名思義,就是在傳統(tǒng)OTN的基礎(chǔ)上,針對AI時(shí)代的新場景、新需求,進(jìn)行全面升級演進(jìn),從而發(fā)展出的新型OTN網(wǎng)絡(luò)。它包括了兩大戰(zhàn)略方向,即:“OTN for AI”以及“AI for OTN”。
我們先看看“OTN for AI”。在這個(gè)方向上,主要考慮的是光傳送網(wǎng)需要具備哪些能力,才能滿足AI時(shí)代對運(yùn)力的要求。
AI-OTN提出的目標(biāo),是通過構(gòu)建超寬彈性、安全可靠的運(yùn)力底座,實(shí)現(xiàn)“一點(diǎn)接入、算力隨取”的極致體驗(yàn)。具體來說,包括了算間和入算兩個(gè)場景:
在算間場景(智算中心之間的互聯(lián)互通),AI-OTN可以通過Beyond 1T、OTN集群、DC-OTN等創(chuàng)新技術(shù),實(shí)現(xiàn)算力資源的超寬無損互聯(lián),有效打破算力孤島。
在入算場景(用戶與智算中心之間的互聯(lián)互通),AI-OTN可以通過端到端全光交換、AI增強(qiáng)型WSON、fgOTN細(xì)顆粒調(diào)度及量子加密等先進(jìn)技術(shù),為用戶提供極致低時(shí)延、高可靠、高安全的“毫秒用算”體驗(yàn)。
![]()
我們分別來看這幾個(gè)關(guān)鍵技術(shù)點(diǎn)的具體含義。
●Beyond 1T(超高速率)
想要支撐AI智算的需求,帶寬是基本前提。
目前,國內(nèi)三家運(yùn)營商建成全球規(guī)模最大的全光骨干網(wǎng)和政企OTN精品專網(wǎng),國家樞紐間正在加快規(guī)模部署400G光傳輸系統(tǒng)。800G和1.6T相關(guān)技術(shù),也在積極驗(yàn)證之中。對于AI的長遠(yuǎn)發(fā)展來看,帶寬肯定還是要繼續(xù)往1T以上升級演進(jìn)。AI-OTN提出的Beyond 1T,就是指在帶寬上必須超越(beyond)1T。
這離不開光器件的迭代升級、新頻段(“C+L”等)的探索以及新型光纖的普及。
帶寬的升級,還必須考慮對反向復(fù)用的支持。這一點(diǎn),AI-OTN將通過多個(gè)子波長來實(shí)現(xiàn)。通過光層子波長FlexOP技術(shù),AI-OTN可以做到G比特到T比特任意高速業(yè)務(wù)的平滑傳輸。
例如,在1.6T帶寬下,基于子載波技術(shù),可以切分為16個(gè)100G,或者8個(gè)200G,能夠更好地提供不同子波長的業(yè)務(wù)調(diào)度和互通,提升靈活性。
![]()
● OTN集群(敏捷調(diào)度)
目前,上海、北京、武漢、西安等重點(diǎn)城市的節(jié)點(diǎn)業(yè)務(wù)容量已經(jīng)非常大,甚至達(dá)到了百T級別。東西向、南北向的算力,都在這些節(jié)點(diǎn)匯聚,帶來了巨大的業(yè)務(wù)壓力。
AI-OTN能夠?qū)崿F(xiàn)一個(gè)站點(diǎn)多個(gè)OTN集群的跨環(huán)敏捷調(diào)度,支持單站400Tbps的集群OTN應(yīng)用。
很多核心機(jī)房的單位功耗達(dá)到8000瓦甚至10000瓦。如果沒有集群能力,各個(gè)OTN框之間無法實(shí)現(xiàn)保護(hù),相當(dāng)于把一個(gè)核心站點(diǎn)變成多個(gè)站點(diǎn),增加了業(yè)務(wù)發(fā)放的復(fù)雜性。
●DC-OTN(無損傳輸)
在可靠性方面,AI-OTN需要為DCI(數(shù)據(jù)中心互聯(lián))場景提供嚴(yán)格的無損傳輸保障。
在AIGC大模型分布式訓(xùn)練過程中,成百上千的GPU需要跨數(shù)據(jù)中心同步參數(shù)和梯度。傳統(tǒng)傳輸網(wǎng)絡(luò)一旦出現(xiàn)光纖中斷或劣化,會(huì)導(dǎo)致數(shù)據(jù)包丟失,進(jìn)而觸發(fā)TCP(傳輸控制協(xié)議)重傳或RDMA(遠(yuǎn)程直接內(nèi)存訪問)降速,造成算力集群效率急劇下降甚至訓(xùn)練中斷。
為屏蔽傳輸層異常對業(yè)務(wù)的影響,AI-OTN通過雙發(fā)選收等無損倒換機(jī)制,在保護(hù)切換過程中保持?jǐn)?shù)據(jù)流不間斷,實(shí)現(xiàn)業(yè)務(wù)零丟包與無感切換,確保業(yè)務(wù)連續(xù)性。
剛才介紹的幾個(gè)技術(shù),都是面向算間場景(骨干網(wǎng))。接下來,我們再看看入算場景(城域網(wǎng))。想要實(shí)現(xiàn)真的“毫秒用算”,這個(gè)場景最為關(guān)鍵。
●極致時(shí)延
為了支持用戶毫秒級算力接入,國內(nèi)全光網(wǎng)建設(shè)正從省級核心節(jié)點(diǎn)向城域匯聚與邊緣層快速延伸。
當(dāng)前,省級、城域核心層已基本完成全光交換升級,而匯聚與邊緣層正成為下一階段部署重點(diǎn)。只有實(shí)現(xiàn)從核心到邊緣的端到端全光交換,才能為千行百業(yè)提供確定性的“毫秒用算”體驗(yàn)。
面對城域匯聚及邊緣站點(diǎn)空間緊張、部署復(fù)雜的難題,華為聯(lián)合產(chǎn)業(yè)合作伙伴,在器件、模塊集成度等端到端環(huán)節(jié)持續(xù)創(chuàng)新,最終實(shí)現(xiàn)設(shè)備在尺寸與性能上的雙重突破,推出小型化OXC設(shè)備。其體積僅為傳統(tǒng)設(shè)備的四分之一,可在普通匯聚機(jī)房及重要接入點(diǎn)實(shí)現(xiàn)全光調(diào)度與靈活組網(wǎng)。
![]()
●極致高效
前面討論的子載波技術(shù),體現(xiàn)了靈活性的理念。在城域網(wǎng)場景中,面對用戶業(yè)務(wù)需求多樣化、動(dòng)態(tài)化的特點(diǎn),網(wǎng)絡(luò)帶寬也需要具備相應(yīng)的靈活彈性。
傳統(tǒng)OTN技術(shù)受限于較大的最小承載顆粒度(通常為1G),難以高效承載小顆粒業(yè)務(wù),導(dǎo)致帶寬資源利用率偏低。而華為fgOTN/OSU技術(shù)將最小承載顆粒精細(xì)至10M級別,實(shí)現(xiàn)了真正的帶寬彈性化。
這一突破使得網(wǎng)絡(luò)能夠按需分配精準(zhǔn)的帶寬資源,顯著提升傳輸通道的利用效率,讓每單位帶寬都發(fā)揮最大價(jià)值,為運(yùn)營商構(gòu)建高效、集約的城域網(wǎng)絡(luò)奠定了堅(jiān)實(shí)基礎(chǔ)。
●極致可靠
在智能時(shí)代,所有依賴算力的業(yè)務(wù)都對網(wǎng)絡(luò)可靠性提出了極高要求。面對自然災(zāi)害等潛在風(fēng)險(xiǎn)和多樣化的業(yè)務(wù)需求,在城域場景下我們需要構(gòu)建成本可承受的高效保護(hù)機(jī)制。
傳統(tǒng)網(wǎng)絡(luò)在應(yīng)對光纖中斷等故障時(shí),ASON的收斂時(shí)間往往超過10秒,難以滿足實(shí)時(shí)業(yè)務(wù)的需求。如今,通過AI能力與智能算法的引入,結(jié)合oDSP、光放、WSS等關(guān)鍵技術(shù)的協(xié)同創(chuàng)新,AI增強(qiáng)型ASON將故障恢復(fù)時(shí)間從秒級壓縮至50毫秒以內(nèi)——這意味著網(wǎng)絡(luò)自愈能力實(shí)現(xiàn)了千倍提升。
這一突破不僅大幅提升了城域網(wǎng)絡(luò)的可靠性,更在可控成本范圍內(nèi)為企業(yè)用戶和家庭用戶提供了接近"無損"的業(yè)務(wù)體驗(yàn),大幅提升算力服務(wù)質(zhì)量。
●極致安全
在智能時(shí)代,無論是AI訓(xùn)練、推理還是各類智能應(yīng)用的部署,數(shù)據(jù)傳輸?shù)陌踩砸殉蔀椴豢苫蛉钡暮诵囊螅瑯I(yè)務(wù)場景對安全等級的需求不斷提升。
傳統(tǒng)加密方式在面對日益復(fù)雜的網(wǎng)絡(luò)攻擊時(shí),已經(jīng)力不從心。華為AI-OTN創(chuàng)新引入QKD量子加密解決方案,通過量子密鑰分發(fā)技術(shù)實(shí)現(xiàn)密鑰的不可破解與動(dòng)態(tài)更新,從根本上提升系統(tǒng)的安全防護(hù)水平,為智算數(shù)據(jù)流動(dòng)構(gòu)建起一道堅(jiān)實(shí)可靠的防線,助力用戶在AI時(shí)代實(shí)現(xiàn)數(shù)據(jù)傳輸?shù)臉O致安全。
█AI for OTN,AI賦能OTN全方位能力躍升
新型OTN可以為AI業(yè)務(wù)和場景保駕護(hù)航,而反過來,AI也能夠大幅提升新型OTN的能力。
![]()
我們可以從設(shè)備和網(wǎng)絡(luò)的角度分別來看:
●AI賦能OTN設(shè)備
AI-OTN將AI技術(shù)深度融入OTN設(shè)備全棧,從光器件、光模塊到整機(jī)系統(tǒng),全面提升設(shè)備智能水平。
在光器件層面,引入AI算法增強(qiáng),可以實(shí)現(xiàn)光電聯(lián)合損傷補(bǔ)償,也可以感知信道動(dòng)態(tài),提升能效。例如,針對oDSP算法,可以通過AI能力進(jìn)行算法模型優(yōu)化。
在光模塊層面,借助AI算法,可以對光模塊亞健康狀態(tài)進(jìn)行預(yù)警,提前發(fā)現(xiàn)并排除風(fēng)險(xiǎn)。在業(yè)務(wù)開通階段,也可以主動(dòng)隔離亞健康模塊,降低故障發(fā)生概率,減少對模型訓(xùn)推的影響。
在單板層面,可以實(shí)現(xiàn)對光纜的感知,達(dá)到路由還原、外破預(yù)警的效果。
在設(shè)備層面,基于AI可以實(shí)現(xiàn)業(yè)務(wù)應(yīng)用的秒級識別,提供差異化品質(zhì)保障。設(shè)備內(nèi)部的內(nèi)生智能,可以做到小于1dB的性能評估精度。
●AI賦能OTN規(guī)建維優(yōu)
剛才介紹的是設(shè)備層面,AI在網(wǎng)絡(luò)層面能夠做什么呢?事實(shí)上,在OTN網(wǎng)絡(luò)的規(guī)劃、建設(shè)、維護(hù)以及優(yōu)化階段,AI都已經(jīng)顯現(xiàn)出巨大的潛力。
例如,在規(guī)劃階段,傳統(tǒng)的規(guī)劃方式是離線規(guī)劃,光纖參數(shù)復(fù)雜加上設(shè)備器件的老化,會(huì)帶來很多問題。引入AI,可以將光纖物理參數(shù)和器件物理參數(shù)做成AI模型,快速完成網(wǎng)絡(luò)的整體在線規(guī)劃和資源部署,還可以進(jìn)行配置仿真,大幅提升規(guī)劃的效率和準(zhǔn)確性。
再例如,在運(yùn)維階段,AI-OTN依托網(wǎng)元內(nèi)置算力、數(shù)字孿生等技術(shù),將OTN升級為“智能管道”。通過對業(yè)務(wù)特征、光器件性能參數(shù)、光纖狀態(tài)的感知,構(gòu)建了業(yè)務(wù)、網(wǎng)絡(luò)、光纜三層的數(shù)字化感知模型,具備“通感算一體”的能力。
![]()
基于AI,還可以建立光網(wǎng)絡(luò)品質(zhì)分析模型,對網(wǎng)絡(luò)中出現(xiàn)的各種問題進(jìn)行智能優(yōu)化,顯著提升優(yōu)化的效率。此外,AI還能對故障進(jìn)行快速定位和診斷,提供修復(fù)建議,縮短故障恢復(fù)時(shí)間。
當(dāng)OTN遇上AI,光通信網(wǎng)絡(luò)仿佛突然多了很多數(shù)字員工。網(wǎng)絡(luò)的規(guī)建維優(yōu)都變得更加簡單高效。這不僅降低了運(yùn)營商的成本,也能釋放出更多的精力,專注于新業(yè)務(wù)場景的開拓以及客戶體驗(yàn)的提升。
█最后的話
近日,工業(yè)和信息化部辦公廳已發(fā)布《關(guān)于開展城域“毫秒用算”專項(xiàng)行動(dòng)的通知》。
其中明確提出:聚焦算力網(wǎng)絡(luò)發(fā)展,構(gòu)建高速大容量、確定低時(shí)延、泛在廣覆蓋的城域網(wǎng)絡(luò),在城域內(nèi)提供毫秒級算力資源網(wǎng)絡(luò)通達(dá)能力,即面向基礎(chǔ)設(shè)施實(shí)現(xiàn)算力中心毫秒互連(<1毫秒),面向重點(diǎn)場所實(shí)現(xiàn)算力資源毫秒接入(<1毫秒),面向應(yīng)用終端實(shí)現(xiàn)算力應(yīng)用毫秒可達(dá)(網(wǎng)絡(luò)時(shí)延<10毫秒)。以專項(xiàng)行動(dòng)為牽引,帶動(dòng)產(chǎn)業(yè)各方聚焦暢通毫秒用算通道,在全國范圍內(nèi)梯次推進(jìn)毫秒用算網(wǎng)絡(luò)建設(shè),到2027年基本形成全域覆蓋、高效暢通的城域毫秒用算網(wǎng)絡(luò)能力體系。
我們也可以看到,國內(nèi)運(yùn)營商正在不斷增加在全光運(yùn)力基礎(chǔ)設(shè)施上的投入,并積極探索金融、在工業(yè)、交通、能源、教育等重要行業(yè)的“毫秒用算”應(yīng)用實(shí)踐。
例如,上海移動(dòng)打造了“1ms浦江算力光網(wǎng)”,以超低時(shí)延連接城市核心算力節(jié)點(diǎn),支撐金融高頻交易、跨國企業(yè)云端協(xié)同等高價(jià)值商業(yè)場景。再例如,湖北移動(dòng)建成覆蓋全省的毫秒級用算網(wǎng)絡(luò),服務(wù)三維測繪企業(yè)的云渲染等高實(shí)時(shí)性應(yīng)用。還有北京電信,他們通過全光城市算網(wǎng)實(shí)現(xiàn)了算力與網(wǎng)絡(luò)資源的最優(yōu)配置,依托其低時(shí)延協(xié)同能力服務(wù)于衛(wèi)健診療、交通管理等十多個(gè)行業(yè)的模型訓(xùn)練與實(shí)時(shí)推理。
我相信,以AI-OTN為代表的全光運(yùn)力創(chuàng)新與升級,目前只是剛剛起步,未來還將持續(xù)提速。
全光運(yùn)力與AI的深度融合,還將催生新的業(yè)務(wù)模式和服務(wù)形態(tài),為運(yùn)營商和行業(yè)用戶創(chuàng)造更大的價(jià)值空間。在這場全光運(yùn)力與AI的雙向賦能中,我們有望見證一個(gè)更加智能、高效、安全的光通信新時(shí)代。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.