![]()
哈嘍,大家好,今天小睿這篇評論,主要來分析智算基礎設施交付標準,用好算力的核心門道
最近這倆月,不管是互聯網公司還是制造企業,都在扎堆搞大模型,不少企業一口氣買了幾百上千張 GPU,結果訓練到一半就崩了。
后來才發現,不是算力不夠,是沒搞懂智算基礎設施的交付標準,白白浪費了錢和時間。
![]()
之前大家都把注意力放在模型算法上,很少有人關注智算基礎設施的交付問題,現在這個問題已經成了企業智能化轉型的卡點。
![]()
傳統 IT 基礎設施的核心是穩定兼容,而智算基礎設施的核心是性能與效率,這是 IBM 人工智能基礎設施報告里提到的內容。
12 月 15 日,工信部發布《算力互聯互通行動計劃》,明確提到智算基礎設施是算力生命體,是一套算力網絡體系,不是簡單的服務器堆疊。
![]()
12 月 8 日,“疆算入渝” 工程的中國移動 — 阿里云智算中心項目開工,同時中國移動和阿里云聯合向重慶數字資源集團、重慶長安汽車交付了國產算力 2000 卡集群。
這個集群在搭建時,沒有直接堆疊服務器,而是先做了算力節點的均衡規劃,避免了單節點性能失衡的問題。
![]()
智算集群的交付,是保障后續穩定運行的關鍵,需要從硬件到性能逐項驗證。12 月 3 日,中國信通院發布《智算集群交付驗收白皮書》,明確了三類核心驗收標準。
第一類是硬件一致性與健康性,驗收時要核對 CPU 的型號、核心數,GPU 的型號、顯存、驅動版本,存儲的讀寫帶寬,以及網絡的光模塊狀態。
![]()
攀枝花川滇智算中心在交付前,核對了所有 GPU 的驅動版本,確保所有節點的 GPU 驅動統一。
第二類是性能與穩定性驗證,需要進行 72 小時的連續壓力測試,比如用 NVIDIA DCGM 做 GPU 穩定性測試。
這個智算中心在交付前,用NVIDIA Air 數字孿生仿真工具,搭建了和實際集群一致的數字模型,提前發現了 12 個光模塊的光功率衰減問題,更換光模塊后,后續的測試沒有出現網絡故障。
第三類是通信網絡驗證,需要運行 all-to-all 測試,檢查鏈路的誤碼率、丟包率。“疆算入渝” 交付的 2000 卡集群,在驗收時運行了 all-to-all 測試,確保服務器之間的協同通信穩定。
![]()
隨著大模型的參數越來越大,算力需求持續增長,智算基礎設施的交付標準也在不斷更新。
工信部的《算力互聯互通行動計劃》提出,2025 年要完成算力互聯互通的試驗驗證,實現公共算力資源標準化互聯。
12 月 15 日,攀枝花川滇智算中心點亮,這個智算中心采用了液冷系統,PUE 降至 1.2 以下,符合綠色智算中心的交付要求。
![]()
同時,這個智算中心搭建了算力池化平臺,將 GPU 利用率從傳統的 18% 提升至 62%。
另外,跨區域的算力交付也成了新的方向,“疆算入渝” 的 2000 卡集群,就是跨區域交付的算力資源,后續可以通過算力互聯互通平臺,實現重慶和新疆的算力調度。
![]()
智算基礎設施的交付標準,是用好算力的核心前提。隨著相關規范的不斷完善,以及跨區域算力協同的推進,企業能更順暢地搭建智算集群,推動大模型和人工智能應用的落地。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.