C114訊 2月5日消息(水易)近日,英偉達在一場“面向千兆瓦級AI工廠的共封裝硅光交換技術”的網絡研討會上,英偉達網絡高級副總裁Gilad Shainer深入介紹了英偉達打造AI超級計算機的方法,以及CPO技術在提升能效和系統可靠性方面所扮演的關鍵角色。
CPO破局光互連功耗挑戰
Gilad Shainer表示,現代AI基礎設施的核心理念是“數據中心即計算機”。他強調,AI工作負載依賴大量計算單元協同運作,而網絡正日益成為決定整個系統能力的關鍵因素。
他將AI超級計算機描述為由四大基礎設施組成:一是Scale-up,通過NVLink將英偉達H100 GPU互連,形成所謂的“機架級GPU”;二是Scale-out,采用Spectrum-X以太網作為端到端網絡架構,連接多個機架,支持跨數十萬顆GPU的分布式AI工作負載;三是上下文內存存儲,滿足推理階段對低延遲、高吞吐存儲的需求;四是Scale-across,基于Spectrum-X的技術方案,當單個站點受電力或物理空間限制時,可將多個數據中心連接成一個統一的計算引擎,目標是構建“千兆瓦級”AI工廠。
光互連技術在其中發揮著重要作用。不過他指出,隨著每一代帶寬翻倍,光網絡的功耗也在持續上升,目前已接近計算資源總功耗的10%。因此,在電力受限的數據中心中,降低光互連功耗可直接轉化為更高的有效算力。
CPO技術將原本置于外部可插拔光模塊中的光引擎,集成到交換芯片的同一封裝內。通過縮短電通道長度并減少信號轉換環節,英偉達預計可顯著降低功耗并提升信號質量。他提到,當前可插拔光模塊功耗約為20-25瓦,而CPO方案可在Scale-out基礎設施中實現最高5倍的功耗節省。
除能效外,CPO還能減少組件和所需激光器數量,提升數據中心整體可靠性,并延長“首次中斷時間”(time to first interrupt)。Gilad Shainer表示,英偉達已為Spectrum-X以太網平臺和Quantum-X InfiniBand平臺開發了支持CPO的交換機,并與生態合作伙伴共同推進封裝工藝、光纖連接方式及液冷設計方案。
正面回應規模部署“質疑”
在問答環節,Gilad Shainer表示,英偉達預計CPO的部署將于今年啟動。目前已宣布三家合作伙伴CoreWeave、Lambda和德克薩斯高級計算中心(TACC)將在今年上半年部署基于Quantum-2 InfiniBand平臺的CPO系統。Spectrum-X以太網平臺的CPO產品計劃于今年下半年開始出貨。
關于CPO的可靠性,他指出,可插拔光模塊的可靠性問題多源于人為操作,如清潔、插拔、意外觸碰等都容易損壞光模塊。而CPO將光引擎集成到交換機封裝內部,并對整個系統進行一體化驗證,可有效減少灰塵污染和人為操作風險,從而提升系統韌性。英偉達已經與合作伙伴打造全系統制造測試流程,確保部署前整機100%驗證,而非單一組件。
被問及與臺積電的合作時,Gilad Shainer強調,雙方共同開發的共封裝工藝注重可靠性和可測試性。他還提到,早期CPO嘗試多采用較大的基于MZM的光引擎,而英偉達則采用基于微環調制技術的小型化光引擎,以適配高密度大端口AI網絡。此外,英偉達還開發了光纖對準技術和高功率激光器,以進一步減少所需激光器數量。
針對CPO相比可插拔方案在靈活性方面的劣勢,Gilad Shainer承認CPO需預先選定特定技術,但他稱英偉達的方案已覆蓋典型數據中心內部距離,甚至可連接園區內不同建筑,從而減少數據中心內對多種光模塊類型的需求。對于超長距離,如跨城市數據中心互連,他仍建議使用傳統可插拔光模塊。
面對“按需付費”(pay-as-you-go)模式下可插拔光模塊更具成本彈性的質疑,Gilad Shainer回應稱,AI超級計算機通常以高利用率為目標,并采用高度優化的拓撲結構,客戶往往會一次性部署滿配基礎設施。在此場景下,CPO不僅能降低資本開支(CAPEX)和運營支出(OPEX),還能提升系統可靠性。
基于上述優勢,Gilad Shainer認為,超大規模云服務商會積極采用CPO。對于下一代產品的演進方向,他表示,主要包括更大端口數交換機、更高光連接密度與數據吞吐量、新型光纖-交換機連接技術、更高密度全液冷機架等。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.