AI是算力與電力的耦合。隨著性能瓶頸從單一計算單元轉(zhuǎn)向互聯(lián)結(jié)構(gòu),越來越龐大的超節(jié)點與集群,正在重塑電力轉(zhuǎn)化為算力的路徑。算力與電力的協(xié)同擴(kuò)展,正在成為AI時代的下一個關(guān)鍵詞。
為了讓AI以更高效率、更低成本運(yùn)行,全球科技巨頭在日前舉行的OCP(開放計算項目)全球峰會上,紛紛提交各自的架構(gòu)藍(lán)圖,試圖在算力與電力的協(xié)同設(shè)計標(biāo)準(zhǔn)中,占據(jù)更多話語權(quán),以“引領(lǐng)AI未來”。
AI基礎(chǔ)設(shè)施正從芯片之爭,轉(zhuǎn)向機(jī)架級系統(tǒng)架構(gòu)的較量。英偉達(dá)推出了Kyber機(jī)架,取代基于Blackwell架構(gòu)的Oberon機(jī)架,可集成多達(dá)576個Rubin Ultra GPU。AMD推出了基于下一代MI450系列的Helios機(jī)架,已披露版本搭載72塊GPU;它采納了Meta提出的ORW(開放機(jī)架寬體)規(guī)范。
擴(kuò)展,成為了本屆大會的核心議題。在英偉達(dá)看來,AI 的演化是一場持續(xù)的擴(kuò)展,從GPU升級到AI基礎(chǔ)設(shè)施,它需要縱向、橫向以及跨域的擴(kuò)展;在博通眼里,AI構(gòu)筑于以太網(wǎng)之上,唯有它才是支持這三大擴(kuò)展的最優(yōu)解;AMD則認(rèn)為,行業(yè)的每一次重大突破,都來自于開放,AI也是如此。
于是,這次峰會誕生了ESUN。它是基于以太網(wǎng)(Ethernet)的縱向擴(kuò)展(Scale-Up)網(wǎng)絡(luò)(Networking)項目。首批成員堪稱豪華,包括AMD、Arista、ARM、博通、思科、慧與、Marvell、Meta、微軟、英偉達(dá)、OpenAI和甲骨文。無論英偉達(dá)與 AMD最終投入多少資源,這一倡議本身,已構(gòu)成業(yè)界罕見的共識。
![]()
ESUN不是在現(xiàn)有的以太網(wǎng)上加了一層,而是涉及到物理層(PHY)、數(shù)據(jù)鏈路(Data Link)與幀頭(Header)。對OpenAI來說,這正契合它的戰(zhàn)略節(jié)奏。奧特曼正在串聯(lián)起軟硬件協(xié)同的生態(tài),已經(jīng)自己組了一個算力的局,也需要加入網(wǎng)絡(luò)的圈子;它與博通的合作,本來就希望加強(qiáng)在網(wǎng)絡(luò)、機(jī)架與互聯(lián)上的協(xié)同。可以說,美國的AI基礎(chǔ)設(shè)施共識,正在由此成型。
在這次峰會上,Meta就提出,算力硬件的多元化不可避免。一方面,是為了避免依賴單一廠商,保證供應(yīng)鏈韌性;另一方面,則是為了負(fù)載適配,針對不同AI任務(wù)選擇“性能最優(yōu)硬件”。而要充分復(fù)用這些異構(gòu)資源,就必須盡可能減少硬件碎片化,降低軟件層的適配復(fù)雜度,建立更統(tǒng)一的互操作標(biāo)準(zhǔn)。
當(dāng)前,縱向擴(kuò)展已成為當(dāng)前平衡AI工作負(fù)載的關(guān)鍵路徑。隨著稀疏架構(gòu)中專家(Expert)數(shù)量與通信需求不斷攀升,芯片和節(jié)點規(guī)模同步擴(kuò)大。為了突破銅纜物理限制,把更多GPU納入同一個低延遲域,機(jī)架級計算應(yīng)運(yùn)而生。稀疏模型的專家規(guī)模正在快速膨脹,從最早的Mixtral的8個,到DeepSeek-V3的256個,再到Kimi-K2的384個,甚至Qwen3-Next的512個。阿里云與華為等也在不斷擴(kuò)大它們的節(jié)點的縱向擴(kuò)展規(guī)模。
在此之前,圍繞縱向擴(kuò)展,各大廠商一直各行其道。英偉達(dá)擁有自己的NVLink與NVSwitch,幾乎完全封閉,只是在今年通過NVLink Fusion的形式,向AI世界工廠“適度開放”,允許客戶將自己的CPU與英偉達(dá)的GPU一起使用,或?qū)⒂ミ_(dá)的GPU與其他定制AI芯片一起使用。三星,以及英偉達(dá)剛花了50億美元入股的英特爾,已經(jīng)加入這一生態(tài)。但這個生態(tài)仍然稍顯狹窄,無法應(yīng)對更復(fù)雜的AI定制芯片之間互聯(lián)的未來。
![]()
AMD原本帶頭創(chuàng)新了UAlink聯(lián)盟,這次也加入了ESUN。UALink作為NVLink的開放替代方案,如今成為ESUN的擴(kuò)展協(xié)議。完全基于UALink的挑戰(zhàn)在于,占據(jù)最大GPU市場的英偉達(dá)不在其中,占據(jù)最大XPU市場的博通也被傳言有意退出。
博通無疑是這次 ESUN 的最大贏家之一。它一直試圖讓以太網(wǎng)同時承擔(dān)起縱向擴(kuò)展 與橫向擴(kuò)展 的雙重使命。作為網(wǎng)絡(luò)業(yè)務(wù)的“基本盤”廠商,博通在英偉達(dá)主導(dǎo) AI 芯片敘事后,一度失去了定義未來網(wǎng)絡(luò)的主導(dǎo)權(quán)。
今年年中,博通推出了SUE(縱向擴(kuò)展以太網(wǎng))架構(gòu)。三季度,又迅速升級了網(wǎng)絡(luò)交換芯片Tomahawk,從量產(chǎn)的Tomahawk 5衍生出Tomahawk 6與Tomahawk Ultra,前者主打橫向擴(kuò)展性能的提升,后者則是專為縱向擴(kuò)展優(yōu)化。它們意在挑戰(zhàn)英偉達(dá)的InfiniBand與NVLink架構(gòu)。在這次的OCP峰會上,博通還發(fā)布了Thor Ultra 800G的網(wǎng)卡芯片,鞏固在橫向擴(kuò)展領(lǐng)域的地位。
![]()
但是,算力的終點是電力。愈發(fā)龐大的縱向擴(kuò)展,也正讓電力瓶頸勒得越來越緊。這不僅關(guān)乎外部能否提供足夠的發(fā)電規(guī)模,更在于AI任務(wù)本身的功率波動性與高密度能耗需求,正在重塑數(shù)據(jù)中心內(nèi)部的電力設(shè)計邏輯。
傳統(tǒng)的54V機(jī)架電源系統(tǒng),在高功率密度不斷攀升的場景下,已暴露出電阻損耗高、銅纜用量激增等短板,難以滿足AI時代的新需求。而且,傳統(tǒng)現(xiàn)行架構(gòu)需經(jīng)過多級電能變換,將電網(wǎng)送來的中壓交流電先降至低壓交流,再由UPS調(diào)節(jié)并通過PDU與母線槽分配到機(jī)架內(nèi),歷經(jīng)多次轉(zhuǎn)換,最終送到各計算節(jié)點。
微軟、谷歌與Meta共同打造的Mt. Diablo配電架構(gòu),專為應(yīng)對現(xiàn)代AI硬件的極端功率需求而設(shè)計。它采用±400VDC配電方案,可支撐機(jī)1MW級機(jī)架功率,顯著提升了供電效率與系統(tǒng)緊湊性。它還免去了多余的交流-直流轉(zhuǎn)換,以及變壓器等大量調(diào)節(jié)設(shè)備,節(jié)省了整套系統(tǒng)的空間占用,降低了系統(tǒng)復(fù)雜度與運(yùn)維成本。
未來,這套系統(tǒng)還將進(jìn)一步引入固態(tài)變壓器(SST),進(jìn)一步實現(xiàn)供電鏈路的精簡化。它專為高功率密度的AI數(shù)據(jù)中心而設(shè)計,能夠在更高效率下靈活接入電網(wǎng)與儲能系統(tǒng),并在負(fù)載劇烈波動時維持電網(wǎng)穩(wěn)定。除原有的Mt. Diablo成員外,英偉達(dá)也加入了進(jìn)來。各方希望通過聯(lián)合創(chuàng)新,降低整體基礎(chǔ)設(shè)施成本,并借助供應(yīng)鏈復(fù)用,將該技術(shù)推廣至更廣泛的行業(yè)場景。
![]()
英偉達(dá)下一代Kyber機(jī)架,則采用了800VDC高壓直流配電方案。其生態(tài)伙伴包括旗下的AI新興云CoreWeave、Nebius等公司。黃仁勛早已為自己的算力電力協(xié)同生態(tài),拉攏了一大波供應(yīng)鏈上下游企業(yè)。今年,在COMPUTEX上,他宣布成立800V高壓直流(HVDC)供電供應(yīng)商聯(lián)盟。
![]()
英偉達(dá)的愿景是,未來將在設(shè)施級層面集中完成所有交流至直流的能量轉(zhuǎn)換,構(gòu)建本地直流數(shù)據(jù)中心,實現(xiàn)從電力到算力的端到端一體化。在于 OCP 大會同期發(fā)布的800VDC白皮書中,英偉達(dá)同樣提到未來將引入固態(tài)變壓器(SST)。
算力與電力協(xié)同的下一代 AI 基礎(chǔ)設(shè)施,或許將成為“AI 泡沫”留下的最好技術(shù)遺產(chǎn)。
附錄,主議程列表
谷歌:敏捷AI架構(gòu):面向AI時代的可替換數(shù)據(jù)中心
英偉達(dá):塑造AI開放基礎(chǔ)設(shè)施的未來
甲骨文:與OCI共建澤級(Zettascale)AI集群:攜手開放生態(tài),共創(chuàng)下一代AI
AMD:完全開放且協(xié)作的AI生態(tài)系統(tǒng)
超微:未來AI數(shù)據(jù)中心:標(biāo)準(zhǔn)化與創(chuàng)新并重
微軟:新時代基礎(chǔ)設(shè)施:在前沿規(guī)模上推動AI
ARM:AI的新需求:新硅片、新系統(tǒng)、數(shù)據(jù)中心的新紀(jì)元
博通:面向AI擴(kuò)展的網(wǎng)絡(luò)
戴爾:擴(kuò)展數(shù)據(jù)中心基礎(chǔ)設(shè)施
Scaleway:在新興AI云上擴(kuò)展集群
英特爾:以開放速度擴(kuò)展 AI:從硅片到系統(tǒng)
Meta:將AI基礎(chǔ)設(shè)施擴(kuò)展至數(shù)據(jù)中心區(qū)域
所有主議程keynotes,均可在OCP峰會官網(wǎng)獲得:
https://www.opencompute.org/events/past-events/2025-ocp-global-summit
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.