微軟已經開始將其在美國各地的人工智能數據中心連接起來,創建了一種稱為新型連接系統——“人工智能超級工廠”。該網絡中的前兩個站點位于佐治亞州亞特蘭大和威斯康星州,亞特蘭大自今年10月以來一直在運營,威斯康星州上周公開推出。這些設施由高速專用光纖骨干網連接,旨在在大規模的人工智能工作負載上協同工作,近乎實時跨站點拆分和同步作業。
![]()
這種連接的架構,微軟稱之為Fairwater(靜水),代表了從孤立的云區域到統一的、特定于任務的基礎設施模型的轉變。該公司表示,這些網站經過優化,可以使用數十萬個GPU運行計算繁重的人工智能作業,而不是處理數百萬個較小的工作負載。
隨著微軟擴大其人工智能基礎設施的足跡,預計未來幾個月將有更多的Fairwater地點上線。微軟高管表示,這種做法標志著大規模人工智能系統的構建和運營方式發生了根本性轉變。
微軟專注于Azure基礎設施的總經理Alistair Speirs表示:“這是關于構建一個分布式網絡,它可以作為一臺虛擬超級計算機,以一種在單一設施中無法實現的方式應對世界上最大的挑戰。”
他補充道:“傳統的數據中心旨在為多個客戶運行數百萬個獨立的應用程序。”“我們稱之為人工智能超級工廠的原因是,它在數百萬個硬件上運行同一項復雜的工作。這不僅僅是一個訓練人工智能模型的單一站點,而是一個支持這項工作的站點網絡。”
![]()
大多數云數據中心都是作為單層倉庫構建的,以支持廣泛的應用程序。Fairwater采用了一種不同的方法,使用兩層設計在更小的空間內堆疊更多的GPU機架。這種垂直布局縮短了組件之間的距離,有助于減少延遲并加快系統之間的通信。
在機架內,微軟正在使用英偉達的GB200 NVL72系統——為大規模人工智能作業設計的72個GPU的預配置集群。該公司表示,這種設置允許Fairwater架構在各個站點擴展到數十萬個GPU。據微軟稱,芯片和機架設計提供了目前所提供的任何云平臺中最高的每機架吞吐量。
保持硬件溫度是另一個關鍵區別。Fairwater設施依靠先進的閉環液體冷卻系統,而不是傳統的冷卻塔或恒定的取水口。該公司表示,這種設置幾乎不使用額外的水,并支持緊湊型人工智能加速器的散熱需求。站點內的智能網絡有助于GPU高效地相互通信,同時每個位置也硬連線到微軟的專用光纖網絡中,作為更大分布式系統的一部分連接到其他Fairwater站點。
微軟Cloud+AI執行副總裁Scott Guthrie表示:“在人工智能領域處于領先地位不僅僅是增加更多的GPU,而是建立使它們作為一個系統協同工作的基礎設施。”
他說:“我們花了數年時間推進可靠訓練最大模型所需的架構、軟件和網絡,這樣我們的客戶就可以充滿信心地進行創新。Fairwater反映了端到端的工程,旨在通過實際性能而不僅僅是理論能力來滿足日益增長的需求。”
![]()
將所有這些連接在一起的是一個專門為人工智能構建的專用網絡。微軟已經鋪設了超過19.3萬多公里的光纖來連接其Fairwater站點——不是用于一般的云流量,而是用于依賴速度和緊密協調的高強度訓練工作。該公司建立了一個自定義協議,可以在站點之間以最小的延遲移動數據,因此即使相隔數百公里的設施也可以像一臺機器一樣運行。
隨著越來越多的網站上線,該網絡旨在與他們一起發展。每個設施都遵循相同的布局,插入相同的互連,并有助于將能源負荷分散到不同的地區。這個想法是在不達到網格限制的情況下進行擴展,也不必每次都重新發明架構。
“為了提高人工智能的能力,你需要有越來越大的基礎設施來訓練它。”微軟Azure首席技術官、首席信息安全官副兼技術研究員Mark Russinovich說。“現在訓練這些模型所需的基礎設施數量不僅僅是一個數據中心,也不是兩個,而是更多個。”
![]()
微軟正在下大賭注——不是在更大更多的芯片上,而是在更智能的基礎設施上。該公司認為,人工智能的未來不會依賴于孤立的超級計算機,而是依賴于緊密相連的站點作為一個整體協同工作。Fairwater首次嘗試大規模證明這一想法。每個數據中心都連接到下一個數據中心,在全國范圍內形成一種人工智能網格。
其他公司也在快速發展,但到目前為止,還沒有人公開以這種方式將他們的設施聯系在一起。無論這是成為一種持久的優勢,還是只是一條前進的道路,有一件事是清楚的:人工智能軍備競賽正在向數據中心更深入地發展——在這場競賽中,架構和計算能力一樣重要。
與 Ai 時代前沿合作,將大門向更多普通用戶敞開!無論你是對新技術充滿好奇心的愛好者,還是希望提升自己技能的職場人士,這里都有適合你的課程和資源。歡迎掃碼加入我們!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.