MLCommons本周發布了最新MLPerf基準測試結果,Nvidia GPU良好的表現一如既往,其中最亮眼的則是最新的Nvidia Blackwell Ultra GPU,結果令人印象深刻。
![]()
在MLCommons發布的MLPerf 5.1基準測試的93個項目中,74個系統包含Nvidia Blackwell GPU,而19個系統配備了各種AMD Instinct GPU。Nvidia系統在MLPerf 5.1中包含的七個AI模型中均排名第一,這些模型涵蓋了大型語言模型(LLM)、圖像生成、推薦系統、計算機視覺和圖神經網絡。
比Nvidia的勝利更重要的是有機會展示其最新、最強大的設備——Blackwell Ultra GB300 GPU,該GPU于2024年3月推出,兩個月前才開始批量出貨。
基準測試顯示,Blackwell Ultra GB300能夠提供大約兩倍于Blackwell GB200的FP4性能,是Nvidia于2022年3月推出并于當年晚些時候開始出貨的Hopper H100 GPU的四至五倍。
例如,在Llama 3.1 405B預訓練基準測試中,配備512個Blackwell Ultra GB300 GPU的系統能夠在64.6分鐘內完成測試。這大約是配備512個Blackwell GB200 GPU的系統在MLPerf 5.0基準測試中完成任務的速度的兩倍,也比同樣在MLPerf 1.0上的等效H100系統快4倍。
![]()
在涉及Llama 2 70B LoRA模型的微調基準測試中,8 GPU Blackwell Ultra GB300設置將在8.5分鐘內完成任務,這比在MLPerf 4.1上運行的8 GPU Hopper H100設置快5倍,比在MLPerf 5.0上運行的Blackwell GB200等效設置快1.6倍。
雖然MLPerf版本每年都在變化,但各個基準保持一致,從而能夠進行公平的比較。對于MLPerf 5.1,MLCommons拋棄了兩個舊模型,BERT Large and Stable Diffusion,并用Llama 3.1 8B和FLUX.1(用于圖像生成)替換了它們。這種演變也反映了與人工智能訓練工作負載相比,人工智能推理工作負載的重要性日益增加。
MLCommons MLPerf負責人David Kanter在一篇博客文章中表示:“總的來說,向GenAI基準提交的數據增加以及這些測試中記錄的可觀的性能改進表明,大家非常關注GenAI場景,在某種程度上以犧牲AI技術的其他潛在應用為代價。”
![]()
這些測試還使Nvidia能夠展示Blackwell Ultra GB300在使用超低精度4位浮點數據格式的新興AI工作負載上的性能。6月,Nvidia推出了第二種FP4數據格式NVFP4,以配合Blackwell和Blackwell Ultra現有的MXFP4格式。
在周一的新聞發布會上,Nvidia分享了記錄NVPF4格式與MXFP4相比準確度的數據。雖然兩者都不如16位浮點格式bfloat16(BF16)準確,但NVPF4顯示的損失比MXFP4少,高達8000億個Token,之后兩種格式的損失率都會加速。
Nvidia加速計算主管Dave Salvator表示:“基本的結論是,我們通過自己的經驗觀察發現,NVFP4實際上比MXFP4提供了更好的準確性,這就是為什么我們不僅傾向于在推理方面,而且在訓練方面使用它。”
Salvator還指出,Blackwell Ultra擁有279GB的HBM3內存,可提供15petaflops的NVFP4計算,英偉達配置了一組配備5120個GPU的GB300 NVL72系統,通過800Gbps Quantum-X800 InfiniBand互聯連接。它能夠在10.0分鐘內完成Llama 3.1 405B的預訓練工作負載,這比Nvidia之前的系統快2.7倍,Nvidia以前的系統有大約2500個GPU。
![]()
Salvator說:“正如你所看到的,當我們從512個GPU增加到5120個GPU時,我們基本上能夠實現約85%的縮放效率。”“計算并不是基準測試中的唯一因素。還有其他因素。有內存移動、I/O、網絡通信,還有其他因素在起作用。因此,我們實現了85%的擴展效率,同時基本上將GPU數量增加了10倍,這一事實真的令人印象深刻。”
Nvidia在本輪新增的兩個基準測試中創造了性能記錄,包括Llama 3.1 8B和FLUX.1。Nvidia能夠在5.2分鐘內用512個Blackwell Ultra GPU組成的系統訓練Llama 3.1 8B模型。它能夠在由1152個Blackwell CPU組成的系統上以12.5分鐘的創紀錄時間完成FLUX.1圖像生成器基準測試。該公司現有的圖神經網絡、對象檢測和推薦系統測試記錄仍然有效。
![]()
在人工智能時代,一個訓練或微調模型,然后過渡到生產(即推理)模式的速度將決定競爭能力。正如Salvator所指出的那樣,Nvidia的設備在人工智能游戲的每個階段都占據主導地位。
他說:“訓練領域的性能提升轉化為模型的更快收斂。模型收斂越快,模型部署得越快,組織獲得投資回報率的速度就越快,這最終是許多組織的目標,即能夠以一種實際上有利可圖的方式部署這些東西。”
與 Ai 時代前沿合作,將大門向更多普通用戶敞開!無論你是對新技術充滿好奇心的愛好者,還是希望提升自己技能的職場人士,這里都有適合你的課程和資源。歡迎掃碼加入我們!
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.