一張 NVIDIA RTX PRO 6000 Blackwell GPU,在跑 230B 參數大模型時的 token 生成速度,幾乎追平了四張 RTX 5090 組建的卡皇集群——而它的功耗只有后者的四分之一。實測數據顯示,單卡 RTX PRO 6000 達到 118.74 tok/s,四張 RTX 5090 為 120.54 tok/s,差距微乎其微。但功耗一側,差距天壤之別:RTX PRO 6000 只需 600W,四張 RTX 5090 要 2300W。
![]()
性能幾乎持平,功耗只有 1/4
測試使用 MiniMax M2.7,這是一款 230B 參數的 AI 推理模型。所有平臺均采用 Unsloth 的 UD-IQ3_XXS 量化方案(GGUF 格式),上下文長度為 32k,最大 token 長度為 4096。結果如下:單卡 RTX PRO 6000(96GB VRAM)達到 118.74 tok/s,首 token 延遲(TTFT)765ms;四張 RTX 5090(4 × 32GB,共 128GB VRAM)為 120.54 tok/s,TTFT 725ms;四張 RTX 4090(4 × 24GB,共 96GB VRAM)只有 71.52 tok/s,TTFT 1045ms。作為參考,NVIDIA DGX Spark(128GB 系統)只有 24.41 tok/s。
![]()
為什么單卡能追平多卡?
多卡互聯雖然能堆疊更多 VRAM,但卡間通信會帶來額外開銷,拖累實際效率。RTX PRO 6000 憑借 96GB 超大單卡顯存,直接裝下 230B 模型的量化版本,省去了多卡協作的協調成本,在這款模型上實現了與四卡集群相當的吞吐量,同時大幅降低了復雜度與功耗。
價格與功耗綜合對比
從成本來看,單張 RTX PRO 6000 定價約 9500 美元,四張 RTX 5090 總價約 14000 美元,DGX Spark 約 4699 美元。功耗方面,四張 RTX 5090 平臺峰值 2300W,四張 RTX 4090 平臺 1800W,RTX PRO 6000 單卡僅 600W,DGX Spark 全機 240W。這意味著 RTX PRO 6000 在特定大模型任務上,實現了比四卡 RTX 5090 更高能效、更低總擁有成本的表現。
對 AI 用戶意味著什么
RTX PRO 6000 定位并非消費級游戲顯卡,而是面向 AI 工作站和專業數據中心的旗艦產品。它展示的趨勢是:在特定 AI 推理任務上,單卡大顯存配合高帶寬的設計路線,比多卡堆疊更高效。對于需要本地部署大模型的用戶來說,這是一個值得關注的信號——大顯存單卡方案在性價比和能效上,可能比想象中更實用。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.