MLPerf存儲基準測試V1.0衡量存儲系統在AI工作負載下的性能表現,其核心指標是在給定的訓練模型和GPU型號下,存儲系統能提供的帶寬以及支持的GPU數量。其他指標,例如每GPU帶寬值或每計算節點帶寬值,基本由主機相關配置決定,和存儲系統性能無關,不具備可比性和參考價值。
今年9月底,MLCommons協會發布了最新MLPerf Storage v1.0 AI存儲基準測試結果,引發了業內的廣泛關注。
![]()
MLPerf benchmark是一個衡量人工智能硬件、軟件和服務性能的標準化基礎測試平臺,由圖靈獎得主David Patterson聯合頂尖學術機構發起成立,是權威性最大、影響力最廣的國際AI性能基準測試。2023年,MLCommons推出了MLPerf存儲基準性能測試,旨在以架構中立、具有代表性和可重復的方式衡量AI工作負載的存儲系統性能。
通過嚴格的測試標準和環境要求,以及豐富的測試模型和指標,MLPerf存儲基準測試不僅能夠為ML/AI模型開發者提供權威的參考依據,幫助他們選擇合適的存儲解決方案,同時測試結果也為存儲系統的優化和改進提供重要參考和指導。
而今年的MLPerf存儲基準評測(v1.0)一共吸引了全球13家領先存儲廠商和研究機構參與,該評測圍繞醫學影像分割、圖像分類、天文學參數預測三大AI存儲應用場景,采用主流的3D-Unet、ResNet50、CosmoFlow三類模型,在GPU利用率高達90%或70%的條件下,以支持的模擬GPU數量以及帶寬作為基準測試指標,評估存儲系統的性能表現。
![]()
值得一提的是,為了更好的幫助外界理解本次基準測試的標準和結果,MLCommons市場總監Kelly Berschauer日前也單獨撰文《MLPerf storage benchmark: A user guide from the maker》,從官方的角度進一步解讀了本次基準測試背后的邏輯和思考。
其核心觀點是:“MLPerf存儲基準測試V1.0衡量存儲系統在AI工作負載下的性能表現,其核心指標是在給定的訓練模型和GPU型號下,存儲系統能支持的GPU數量,而非每GPU帶寬值或每計算節點帶寬值。”
首先,存儲系統能夠支持的模擬GPU訓練集群的規模,是本次基準評測的核心指標。
可以看到,當前訓練數據集的規模正從TB級別上升至PB乃至EB級別,AI大模型的參數量也從千億級別向萬億甚至十萬億規模邁進,這也意味著所需要的計算資源和存儲資源都將會同步增加,而存儲系統同樣需要提供足夠的容量和與之匹配的性能,才能更好地滿足AI訓練過程中對存儲高性能的需求。所以,這個指標本質上是反映了存儲系統的擴展能力和對大規模AI集群的支持能力。
基于此,在本次基準測試中,官方認為在給定的訓練模型和GPU型號下,存儲系統能夠支持多少的模擬GPU數量將會決定系統性能的“上限”,而存儲系統能夠支持的GPU數量越多,不僅代表著系統的性能越高,同時用戶的AI存儲投資回報也會越高。當然,由于當前訓練的AI集群規模都比較大,從用戶的角度來說,未來該指標也可以進一步“細化”到單臺存儲設備或者存儲的擴展單元(scale unit)可以支持的GPU數量規模,以更全面、更準確地反映存儲在大規模AI集群中的綜合性能表現。
其次,僅僅比較每個GPU的MiB/s值(寬帶傳輸速率),并沒有太大的參考價值。
本次基準測試中,MLPerf Storage Benchmark主要是通過accelerator emulation測試工具,來模擬真實的 GPU,如:NVIDIA A100、H100 等,在無需真實GPU的情況下就能進行大規模的存儲性能壓測,用以評估存儲系統在 AI 模型訓練場景的適用性。
在這樣“虛擬”基準測試環境下,每GPU對帶寬性能的要求基本上可以看作是一個“確定值”。如官方所言:“本次基準測試中,只有當Unet3D和ResNet50的加速器利用率達到90%以上,或者Cosmoflow的利用率達到70%以上時,整個基準測試才會通過。”且從不同廠商的UNET3D測試數據的對比中,也可以看到“每個GPU的性能差異不會超過10%。”。官方進一步強調表示:“即使是GPU的使用率超過了90%(對于Unet3D和ResNet50)或者70%(對于Cosmoflow),基準測試也不認為有額外價值”。
事實上,我們以高速公路上行車為例,每GPU對帶寬性能的要求就像是每輛車在高速公路上面臨的“限速”一樣,車輛行駛過程中通常都是不能低于最低限速的(比如90%或70%的利用率)。此外,在基準測試中強調的性能差異不超過10%,則類似于不同品牌的車輛在相同條件下(比如都是高性能跑車),它們的速度差異不會太大,都在一個相對接近的范圍之內,因此即使車輛能夠開得再快,同樣也不能高于最高限速。
不僅如此,每GPU的帶寬差異也會受卡間同步開銷影響,如官方表示:“每GPU帶寬是用總數據讀取量除以總運行時間得到的,沒有正確考慮權重交換期間的空閑時間的影響”。隨著GPU數量的增加,權重交換占用的時間也會增加,導致每GPU帶寬下降。因此,在當前的測試基準設定下,每GPU的MiB/s這個指標,主要受GPU卡數量、主機性能的影響,無法用于評估存儲系統的性能表現。
我們可以這樣理解,如同在一條高速公路上,車輛的通行“速度”( 每GPU的MiB/s值)這個指標,主要受車輛數量(GPU卡數量)和道路擁堵狀況的影響,因而不能僅憑車輛的速度,就可以判斷一條高速公路的質量(存儲系統)一樣,我們也不能僅憑每GPU的MiB/s值來評估存儲系統的性能表現。
最后,單純比較每個客戶端(主機)的MiB/s值,同樣也沒有太大的參考意義。
每客戶端(主機)的MiB/s基本和每主機模擬的GPU卡數呈線性正比,而測試基準并不限制每主機模擬的GPU卡數,測試者可以根據主機的性能以及主機數量自主決定每主機模擬的GPU卡數。這意味著每臺客戶端(主機)的MiB/s并不能反映存儲系統的性能。
簡單做個比喻,這就像是在一場賽車比賽中,每家車隊(客戶端/主機)的最終名次大致上與他們參與比賽的賽車數量(模擬的GPU卡數)成正比,而比賽規則并沒有規定車隊必須駕駛多少輛賽車,因而車隊可以根據自己的駕駛技術(主機性能)以及車隊規模(主機數量)來自由決定自己駕駛的賽車數量。
這也是官方表示:“基準測試報告中提到的主機節點數量,并不等同于實際需要的主機系統數量,因此我們無法從這個數據中得出什么有用的結論”背后的邏輯。
![]()
以此為參考,可以看到在本次MLPerf AI存儲基準測試中,華為通過單臺設備成功滿足了255張GPU模擬訓練的數據吞吐需求,其GPU利用率保持90%以上,單框穩定帶寬高達679 GB/s,是傳統存儲性能的10倍,這一數據可以說充分展示了華為存儲系統在支持大規模GPU運行方面的實力。
更為關鍵的是,它也再次印證了如果AI存儲系統能夠支持更多的GPU同時運行,那么它就能更好地滿足大規模AI模型訓練的需求,而這也是未來用戶評估存儲系統性能的核心指標的重要所在。
正所謂“正本清源”,相信通過官方對MLPerf AI存儲基準測試標準的解讀,大家可以更明白無誤地“看懂”本次MLPerf AI存儲基準測試的結果,以便于在將來更好地選擇適合自身的AI存儲解決方案。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.