英偉達(Nvidia)正在繼續(xù)與開放計算項目(OCP)合作,為其即將推出的Vera Rubin系統(tǒng)提供新的機架級設(shè)計。在上周的OCP全球峰會上,宣布其Vera Rubin MGX機架將采用多項與OCP標(biāo)準(zhǔn)相一致的創(chuàng)新技術(shù)。
![]()
這些更新是Nvidia為數(shù)據(jù)中心轉(zhuǎn)型為其所謂的“千兆級(giga-scale)人工智能工廠”所做努力的一部分,即將計算、電源和冷卻整合為統(tǒng)一設(shè)計的基礎(chǔ)設(shè)施。Nvidia數(shù)據(jù)中心產(chǎn)品營銷經(jīng)理Joe DeLaere表示,Vera Rubin系統(tǒng)擴展了該公司的開放式MGX架構(gòu),該架構(gòu)于去年首次與OCP共享,此后已在多個服務(wù)器設(shè)計中使用。
DeLaere在新聞發(fā)布會上表示:“我們都知道人工智能需求正在爆炸式增長。數(shù)據(jù)中心正在向制造智能和產(chǎn)生收入的千兆瓦級人工智能工廠發(fā)展。”“但是,為了最大限度地提高收入,網(wǎng)絡(luò)、計算、機械、電力和冷卻都必須設(shè)計成一個整體。我們以開放、協(xié)作的方式處于從電網(wǎng)到芯片的轉(zhuǎn)型的中心。”
機架級創(chuàng)新
新的Vera Rubin機架設(shè)計引入了多項硬件改進,旨在提高效率并加快部署速度。其中一項改進是一種新的液冷總線,能夠提供高達5000安培的電流。Nvidia表示,這種設(shè)計支持更高的功率密度和大規(guī)模人工智能工作負載的交付。與之相輔相成的是先進的超級電容器,其儲能能力是Blackwell一代的20倍,這將有助于減少電網(wǎng)電力需求的激增,并在相同的占地面積內(nèi)提供更多的計算資源。
從機械上講,Vera Rubin計算機架引入了PCB中板,創(chuàng)造了一個無電纜的內(nèi)部,減少了組裝時間,提高了可維護性。前部的新模塊化擴展底座將支持Rubin CPX GPU和ConnectX-9 SuperNIC的集成。該系統(tǒng)也是完全液冷的,設(shè)計用于在高達45°C的入口溫度下運行,Nvidia聲稱這將消除其他需要冷卻至32°C或更低的解決方案中出現(xiàn)的效率低下問題。
![]()
千兆級系統(tǒng)的電源和連接
Nvidia還推出了一種新的800伏直流電源架構(gòu),旨在取代數(shù)據(jù)中心中的傳統(tǒng)415伏交流系統(tǒng)。該方法將功率轉(zhuǎn)換向上游移動,將直流電流直接輸送到機架,以減少能量損失并簡化從電網(wǎng)到計算節(jié)點的電氣路徑。通過去除幾層AC-DC轉(zhuǎn)換,Nvidia聲稱該設(shè)計將簡化整個系統(tǒng),允許每個AI工廠有更多的GPU和更高的每瓦性能。
一些合作伙伴計劃在下一代數(shù)據(jù)中心采用800伏架構(gòu),包括富士康(該公司正在臺灣建造一座40兆瓦的設(shè)施,以支持英偉達系統(tǒng))以及甲骨文云和CoreWeave。英偉達表示,它正在與硬件堆棧中的20多家公司合作,為擴大人工智能工廠創(chuàng)建一個共享藍圖。
除了新的電源設(shè)計,Nvidia還強調(diào)了其NVLink Fusion生態(tài)系統(tǒng)的更新,該生態(tài)系統(tǒng)實現(xiàn)了CPU-GPU的直接集成和跨計算節(jié)點的高帶寬互連。英特爾將使用NVLink Fusion構(gòu)建直接連接到Nvidia基礎(chǔ)設(shè)施的x86處理器,而三星Foundry將提供定制CPU和XPU制造,以滿足對異構(gòu)計算日益增長的需求。富士通還通過NVLink Fusion將其Monaka系列CPU與Nvidia GPU集成。
![]()
保持OCP兼容性
雖然一些行業(yè)同行已經(jīng)探索了雙寬配置,但Nvidia仍保留了Vera Rubin的單寬OCP機架外形。DeLeare表示,該設(shè)計最大限度地減少了銅纜布線,縮短了互連距離,從而可以用更少的電纜實現(xiàn)最高的NVLink數(shù)據(jù)速率。他指出,雙寬設(shè)置需要在機架兩側(cè)之間“飛越”電纜,增加了復(fù)雜性和信號損失。Nvidia繼續(xù)在多個現(xiàn)有系統(tǒng)中使用單一的寬OCP架構(gòu),DeLaere稱這種配置成熟且經(jīng)過充分驗證。
Vera Rubin機架的更新符合Nvidia的戰(zhàn)略,即為OCP社區(qū)貢獻開放、可互操作的硬件設(shè)計,同時保持對其核心技術(shù)的控制。通過基于OCP標(biāo)準(zhǔn)設(shè)計其下一代機架架構(gòu),該公司旨在加速行業(yè)采用專門為大規(guī)模人工智能系統(tǒng)設(shè)計的統(tǒng)一計算、電源和冷卻設(shè)計。
與 Ai 時代前沿合作,將大門向更多普通用戶敞開!無論你是對新技術(shù)充滿好奇心的愛好者,還是希望提升自己技能的職場人士,這里都有適合你的課程和資源。歡迎掃碼加入我們!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.