![]()
人工智能的蓬勃發展催生了數十個專門的AI數據中心建設項目,這些設施從頭開始建造,專門用于處理AI工作負載的獨特需求。但大多數AI數據中心項目需要數年時間才能完成。即使建成后,僅靠這些新建設施可能也無法滿足日益增長的AI基礎設施需求。
因此,數據中心行業必須在投資全新專用AI數據中心的同時,對現有設施進行改造以支持AI應用。在許多情況下,對數據中心進行改造以適應AI需求,是比建設新設施更快速、更經濟、更可持續的AI部署路徑。
然而,這種改造也面臨挑戰。AI工作負載有特殊要求,傳統數據中心并非總能很好地滿足這些需求。在某些情況下,AI改造的成本可能超過其帶來的收益。
傳統數據中心面臨的AI挑戰
理論上,任何數據中心都可以支持任何類型的工作負載。數據中心本質上就是容納服務器的建筑物,而托管AI工作負載的服務器在規模或類型上與托管傳統服務(如網絡應用或數據庫)的服務器并無根本差異。
然而,在傳統數據中心運行AI的挑戰在于,AI工作負載,尤其是那些由大語言模型驅動的應用,其運行規模往往超出傳統設施的承載能力。具體來說,傳統數據中心在支持下一代AI工作負載時可能在以下幾個方面存在局限:
電力供應:無論是在訓練還是推理過程中,AI模型的能耗都比大多數其他類型的工作負載更高。這意味著即使傳統數據中心可以容納AI服務器,也可能無法提供這些服務器運行所需的全部電力。
散熱系統:高電力使用量必然帶來高散熱需求,因為更多的電力消耗會產生更多熱量。傳統設施的冷卻系統往往沒有足夠的容量來滿足AI的散熱需求。
機架尺寸和布局:AI服務器,即使是包含GPU等專用硬件設備的服務器,通常可以裝入標準數據中心服務器機架。然而,現有設施的機架可能太小,無法支持AI所需的服務器數量。機架布局也可能帶來挑戰,因為它們可能無法足夠高效地散熱。
網絡基礎設施:某些AI工作負載需要極低的延遲和高帶寬。傳統數據中心的網絡基礎設施可能無法跟上這些需求。
因此,雖然傳統數據中心通常可以在一定程度上支持現代AI工作負載,但它們可能缺乏企業所需的電力、散熱、機架規模和網絡擴展能力來高效運行AI模型。
傳統數據中心AI改造方案
通過改造,傳統設施也可以適應AI工作負載。具體而言,數據中心運營商可以進行以下投資:
修改機架尺寸或服務器房間布局:這是一種相對便宜且簡單的AI改造策略,但只有在設施同時具備支持更大更密集服務器部署的電力和散熱能力時才能發揮作用。
部署更高效的散熱系統(如芯片直接散熱),這可以在不需要大幅增加電力消耗的情況下提高AI散熱能力。雖然需要大量前期投資,但可以帶來長期節省。
升級電力基礎設施,使設施能夠接收更大電量并分配給服務器。這是一項成本相對較高的投資,而且問題是電網有時根本缺乏向數據中心提供更多電力的能力。在這種情況下,部署現場發電可能是一種選擇,但這會為改造項目增加更多費用。
提高現有數據中心電氣基礎設施的效率,以最大限度地減少"閑置電力"。這使數據中心能夠更有效地利用現有的電力容量。這是比大型電力基礎設施升級更小的投資,但缺點是可能只能帶來電力容量的增量提升,這可能不足以將傳統數據中心轉變為世界級的AI數據中心。
升級網絡基礎設施以減少延遲并增加帶寬。這種改變的成本差異很大。特別取決于數據中心距離企業級網絡基礎設施的距離:在數據中心可以連接到現有高性能網絡連接的位置,改善網絡性能會更容易,而不必在大面積區域鋪設新的網絡基礎設施。
改造與重建的選擇策略
改造的替代方案是建設全新的數據中心,從一開始就能夠支持AI工作負載。主要缺點是需要大量費用和時間。還有一個風險是,當新的AI數據中心建成運行時,AI工作負載可能已經發生變化,新設施不再適合。
選擇改造還是完全重建在很大程度上取決于現有設施能力與AI工作負載需求之間的差距。AI工作負載的需求在規模和范圍上可能差異很大;例如,部署預訓練模型通常比運行必須先訓練后才能開始推理的模型需要更少的能源。驅動AI工作負載的特定硬件類型可能差異很大,能源和散熱需求也是如此。
因此,對計劃中的AI工作負載需求和當前數據中心容量進行詳細分析至關重要。這種分析對于確定改造項目是否足以使數據中心跟上現代AI的步伐,或者是否需要完全重建是必不可少的。
Q&A
Q1:傳統數據中心為什么無法直接支持AI工作負載?
A:傳統數據中心在電力供應、散熱系統、機架布局和網絡基礎設施等方面存在局限。AI工作負載特別是大語言模型需要更高的電力消耗、更強的散熱能力和更低延遲的網絡連接,這些需求往往超出了傳統設施的承載能力。
Q2:數據中心AI改造有哪些主要方式?
A:主要改造方式包括:修改機架尺寸和服務器房間布局、部署芯片直接散熱等更高效散熱系統、升級電力基礎設施提高供電能力、優化現有電氣設施減少閑置電力浪費,以及升級網絡基礎設施降低延遲增加帶寬。
Q3:如何決定是改造現有設施還是重建AI數據中心?
A:決策主要取決于現有設施能力與AI工作負載需求之間的差距。需要對計劃中的AI工作負載需求和當前數據中心容量進行詳細分析,評估改造是否足以滿足現代AI需求,還是需要完全重建。重建雖然成本高時間長,但能確保完全適配AI需求。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.