通信世界網消息(CWW)目前,人工智能正以前所未有的速度重塑各行各業,超大規模集群成為AI基礎設施的核心,網絡重要性顯著提升;以大模型訓推為代表的AI新場景推動網絡帶寬和承載性能快速升級;海量內容和數據運行在網絡上,需要更高的網絡可擴展性和健壯性。以智能體為代表的AI新業態出現,智能體之間的協同將成為未來AI業務的重要場景,以A2A協議為代表的智能體通信協議成為IETF等組織重點關注的標準化對象,網絡需要適應新的通信服務形態。
AI骨干網是分布式算力集群互聯的關鍵網絡,《中國運力發展報告(2024年)》提出“單一算力中心已難以滿足日益增長的算力應用需求,多算力中心協同參與業務處理的需求正在持續提升,需要更加高速靈活的算間互聯網絡,便于數據在多算力中心間進行高速傳輸。”AI骨干網在滿足跨數據中心豐富內容(如照片和視頻)帶來的海量數據復制需求的同時,還承擔處理帶寬、可用性和延遲需求差異巨大的AI應用任務,其中包括對延遲和可用性要求高的用戶交互應用,以及高吞吐、大帶寬的批量計算負載。產業界應圍繞國家算力發展要求,優化升級IP骨干網,為社會數字化轉型和人工智能升級提供賦能和支撐作用。
AI時代IP骨干網演進的驅動力
算力設施帶來網絡大帶寬需求
AI應用拉動網絡帶寬需求快速增長,大模型單輪訓練數據互聯需求達到TB級甚至PB級,實時推理需要低更低時延和更穩定帶寬支持。過去4年中,單GPU顯存帶寬從H100的3TB/s提升至GB200的7.2TB/s,增長2.4倍;集群互聯帶寬從400Gbit/s飆升至12.8Tbit/s,增長32倍,DCI骨干網帶寬復合增長率達到45%,遠超傳統互聯網流量增速。預計到2030年,AI任務相關流量將占全網流量的60%,成為絕對主導。
AI應用場景推動高可靠與高性能網絡
AI應用對IP網絡可靠性和性能的要求遠超傳統互聯網,訓練場景中GPU服務器間頻繁進行高通量通信,RDMA(遠程直接存儲器訪問)通信要求網絡極低丟包和極低延遲以及99.999%的超高可靠性。大規模訓練使用10萬多張GPU,高延遲波動會造成GPU利用率大幅下降;嚴重的網絡故障可能導致訓練任務作廢,邊際經濟損失巨大。越來越多的AI推理服務部署在關鍵任務系統中,如金融風控、醫療診斷、智能交通等,需要滿足毫秒級響應和低抖動要求;AI對話系統要求200ms端到端時延,超時將導致用戶流失;自動駕駛感知要求50ms端到端反饋,否則決策風險劇增。
AI技術推動網絡智能化升級
AI技術是IP骨干網技術升級的重要推動力。考慮到廣域網運行環境的復雜性與外部事件的不確定性,傳統的路由協議和流量工程技術難以應對海量應用場景的快速變化需求。IP骨干網需要與AI技術深度融合,借助AI算法增強網絡智能感知能力,提供流量可視、數字孿生、異常預警等;基于AI大模型和算法重構網絡智能決策能力,實現智能路由、智能調度、智能切片;基于AI自動化工具打造智能執行層,構建具備“意圖理解、邏輯推理”能力的網絡智能體,實現網絡配置、優化、故障處理全流程自動化,進而邁向高等級自智網絡。
AI業務催生多模態網絡新需求
AI時代的IP骨干網將同時承載“人-人通信”、“人-機交互”、AI智能體之間的協同,業務通信模式差異極大,需要在統一的網絡上實現高效融合與邏輯隔離,同時兼顧業務體驗與安全合規。此外,新的通信模式對網絡標識、尋址和路由有新的需求,如基于身份的尋址、智能DNS、智能體路由、零信任接入、無協議轉發等。當前單一的IP尋址、路由和數據轉發模式難以完全滿足,未來的骨干網應加快向多模態網絡轉型,有效兼容多種業務編址、路由和硬件轉發體系。
面向AI的IP骨干網架構要點
云網融合是AI時代數字基礎設施發展的核心特征,未來網絡架構將以AIDC/DC為中心構建,聚焦智能云業務,統籌光纜網、傳輸網、IP網和接入網布局,逐步推動實現固移融合和6G空天地一體化網絡,攻關低空、衛星通信等核心技術,打造彈性高速、無損智能的DCA/DCN/DCI網絡服務,精準匹配業務資源需求,實現網絡、算存、數據、模型、應用一體化服務供給,IP骨干網是人工智能網絡體系的重要一環。
為應對未來網絡發展的新挑戰與新機遇,IP骨干網應從“以數據傳送為中心”向“以智能服務為中心”演進,將網絡的傳輸能力與人工智能Token消耗深度關聯。國家數據局數據顯示,截至2025年6月底,我國Token日均消耗量已經突破30萬億,與2024年初的1000億相比,1年半增長了300多倍,模型推理的增長勢頭非常強勁。IP骨干網應加快架構升級和能力提升,更好地服務AI業務場景,重點體現在以下四個方面。
數據驅動的智能控制面:從SDN到ADN
2006年SDN概念誕生,控制面從網絡設備中剝離成為集中化的獨立軟件,集中式控制器通過南向接口(OpenFlow、PCEP、BGP-LS)實時采集拓撲與流量矩陣,使用全局優化算法(如線性規劃、最大流、多商品流)計算顯式路徑,再批量下發到設備;IP骨干網獲得了“一鍵調優”能力,帶寬利用率從40%提升到70%~90%。SDN技術實現了控制與轉發的分離,但控制器和核心算法仍以人工配置和規則驅動為主,難以適應AI時代的高度動態化業務變化和極致性能需求,智能化水平仍有極大的提升空間。
當算力、算法、數據三要素齊備,IP骨干網將引入AI定義的控制面作為核心組件,重點實現“控制策略可學習、可演進”。首先,基于意圖的網絡讓運營人員只需聲明“訓練集群同步延遲小于10ms”,網絡自動把意圖轉譯為多目標優化函數,并推理給出“可承諾邊界”,輸出路徑概率分布,天然解決傳統線性規劃“離散-松弛-舍入”帶來的性能損耗問題。其次,在IP骨干網部署網絡數字孿生能力,實時維護網絡狀態鏡像,通過對比“預期狀態-實際狀態”自動觸發閉環調優;基于在線強化學習技術,對“路徑-延遲-丟包”三元組進行獎勵建模,在仿真環境中自我博弈出“逃生策略”,實現故障毫秒級自愈、隧道權重優化和在線策略梯度更新。最后,推理引擎下沉至網絡數據面,本地GPU/TPU微秒級完成策略推理,進一步提升網絡策略執行效率。
極簡協議和極簡數據面:從IPv6到多模態網絡
IP骨干網將從“協議繁復、功能剛性”走向“極簡轉發、協議無關”的新范式,以應對多元化應用的共存、演進與變革,以及功能與安全兼容的時代要求。傳統IP骨干網數據面被MPLS、RSVP-TE、LDP、BGP等層層疊疊的協議包裹,網絡設備極其復雜,新業務須等待標準成熟、芯片迭代、現網割接,周期以年計。隨著云和AI業務流量占比超過90%,IP骨干網對“快速上線、彈性承載、零中斷演進”的訴求快速增加,極簡、協議無關成為數據面演進的方向。
極簡網絡體現在向IPv6演進上,IP骨干網可率先演進至IPv6單棧網絡,圍繞IPv6單棧構建管控和安全體系。SRv6 SID、AI語義、In-band OAM、隨路Telemetry,都可作為“用戶自定義標簽”隨包穿越全網,中間節點無需理解其含義,有效解決路由表容量與轉發性能的矛盾。
AI骨干網向“意圖驅動、零人工、零協議”的多模態網絡演進,多模態網絡可根據業務SLA需求,實現軟硬件組態、報文格式、路由協議、交換方式、轉發邏輯、部署策略的協同調度,支持多種運行模態的動態加載和運行,實現多元化和專業化的資源高效集約供給。網絡數據面實時分析鏈路抖動、隊列深度等微指標,針對業務SLA智能調整,實現“數據面自我進化”。協議標準、封裝格式、轉發行為不再是預設的靜態契約,而是隨業務需求、網絡狀態、硬件能力動態生成的“即時合約”,IP骨干網數據面將逐步邁入“協議無關、極致極簡”的多模態時代。
端到端高可用、安全網絡:從單一集中控制到混合協同
高可用是未來面向AI的IP骨干網的核心特征,一方面,要對傳統SDN集中式控制架構進行優化,適應頻繁變化的流量需求、新數據中心的加入以及新鏈路的引入,能夠在不中斷服務的情況下對控制平面進行實時遷移和更新;另一方面,骨干網絡需要對潛在廣域環境下鏈路或中間節點故障具備快速響應能力,以提升路徑計算效率,減少響應周期內可能的丟包問題。同時,AI骨干網還必須考慮簡捷操作的設置,滿足不同應用、不同等級流量類型的快速調度需求。
AI骨干網可借鑒數據中心網絡設計,由單一邏輯網絡向多邏輯平面網絡新架構遷移,物理拓撲網絡劃分為多個并行的拓撲,即“平面”,每個平面承擔一部分負載,并擁有獨立的集中式控制棧,平面間流量按需控制,靈活遷移,可便捷地實現新算法的漸進部署、灰度發布和平面間的A/B測試,最小化對實時流量的干擾。高可靠網絡的控制架構應由集中式架構向集中與分布式混合控制架構轉型,集中式控制器負責全局流量工程,而分布式控制則利用本地信息快速響應變化。這種混合架構兼顧了集中流量工程算法的智能、高效管理流量的優勢,能夠快速響應故障,確保網絡服務的連續性。
與此同時,IP骨干網需要將安全能力內嵌于網元和運營中,實現內生安全、全域可信。構建自主可控的軟硬件安全能力,內生實現威脅建模、安全基線掃描和軟件供應鏈安全;同步構建智能安全的運營體系,借助AI技術實現事前攻擊預警升級、跨域路由安全事件智能研判和自動阻斷,響應時間縮短至秒級,保障業務中斷零感知。
低時延、“無損”的高性能網絡:從盡力而為到“確定性”服務
AI時代的高性能IP骨干網絡,需要IP、光、RDMA深度協同,從“啞管道”逐步向端到端“確定性管道”演進,構建面向AI場景的分布式算力的內存總線和分布式數據的互聯總線。
面向AI業務的極致性能需求,IP骨干網的“低時延+高吞吐”將從單點優化進入“光電融合、端網一體”的新階段,路由與光層打破專業壁壘,聯合調優;RDMA走出IDC機房,以原生形態落地骨干網,IP、光和算力三者在統一控制面下被編排。
運營商IP骨干網轉型路徑
新一代IP骨干網將延續云網融合發展理念,以AIDC/DC為中心,向“三新網絡”轉型,重點服務AIDC/DC間的大規模東西向流量,并構建AI骨干網,助力運營商打造AI時代的第二增長曲線。
新架構:極簡廣域網
新一代AI骨干網將秉持網業分離和極簡架構理念,平衡網絡容量、成本和可靠性,更好地支持AI時代大帶寬和差異化業務需求。
首先,應秉持開放解耦的核心理念推動網絡升級。推動實現網絡業務邏輯與網絡轉發機制的解耦,簡化網絡配置,快速適配各類AI新業務的差異化需求;推進產業鏈的開放解耦,降低網絡建設成本和定制成本,讓IP骨干網向協議無關的多模態骨干網轉型,成為AI時代的普惠基礎設施;實現網絡協議的簡化和網元功能的裁剪,通過控制面和數據面的協同,以簡潔、標準的可編程轉發邏輯替代多樣化的路由協議。
新控制:數據驅動的智能控制
新一代AI骨干網將全面升級網絡的智能控制能力,將AI技術嵌入網絡內生控制邏輯,構建實時閉環控制系統,實現“感知—決策—執行”一體化,有效提升網絡的可靠性、轉發性能和端到端時延性能。
IP骨干網的管控系統與云基礎設施深度協同,升級AI骨干網的控制面能力,全面實現從軟件定義到AI內生的轉型;持續提升控制面對網絡狀態數據的采集與分析能力,數據采集的精度和廣度覆蓋網絡運行狀態,夯實數據基礎;構建更加健壯的網絡控制系統架構,支持混合部署模式,兼顧集中控制面的智能高效以及分布式控制的可靠性;構建閉環控制系統,實現“感知—決策—執行”一體化;與云服務深度融合,實現網絡能力的全面開放,以及面向差異化業務的靈活封裝。
新運營:智能內生的高效運營
IP骨干網將借助AI技術全面提升網絡“規建維優”全生命周期的智能化水平,以新一代AI工具為核心,智能體與大模型深度滲透,將故障預判準確率提至90%以上,70%的網絡告警由AI自動響應,打造體系化運營工具。
以數字孿生技術為基礎構建網絡世界模型,打造基于數字化網絡仿真系統,實現網絡關鍵操作的灰度覆蓋和故障的快速復現;以強化學習技術與優化理論為基礎研發網絡智能設計和優化工具,持續迭代網絡策略模型;引入AIOps(人工智能運維)平臺,基于AI大模型技術建立網絡知識圖譜,支持意圖識別、策略推理和故障根因分析,實現故障預測、自動修復;推動IP骨干網運營水平向L4(高度自動化)階段演進,部分場景將加速向L5(完全自智)邁進。
結語:邁向AI原生網絡
未來,以AI智能體為代表的AI原生應用將無處不在,AI骨干網絡將成為AI智能體之間協同、學習、決策的“神經中樞”。推動算力、數據、模型跨地域高效流轉——既為東部數字經濟核心區提供海量訓推算力、數據和模型能力,又為中西部地區提供輕量化推理算力,支撐“東數西算”戰略深化,成為國內數字經濟高質量發展的硬支撐。
面向AI的IP骨干網演進,不僅是技術的演進,也是未來網絡架構重構的核心方向和AI商業生態競爭的新戰場,AI骨干網將遵從云網融合理念,圍繞AIDC需求持續發展,從SDN集中控制到AI原生自治,逐步演進成為具備業務感知、智能調度、自適應優化能力的AI原生網絡。構建AI原生骨干網絡,是網絡工程師與AI創新者的共同使命。
*本篇刊載于《通信世界》2025年12月10日*
第23期 總981期
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.