英偉達近日發布稱,正在開發用于可視化和監測英偉達GPU集群的軟件解決方案,為云合作伙伴和企業提供洞察儀表板,幫助他們提高整個計算基礎設施的GPU正常運行時間。
據了解,該服務由客戶選擇、自行安裝和控制,用于監測GPU使用情況、配置和錯誤。它將包含一個開源客戶端軟件智能體,這是英偉達持續支持開放、透明軟件的一部分,旨在幫助客戶最大限度的發揮其GPU系統的性能。
總體來看,這套工具是一個云端算力集群控制工具,有點類似PC上的任務管理器。客戶可以自行決定是否開啟,服務由英偉達官網托管。未來這套工具會計劃開源。
![]()
核心機制:客戶自主,只讀遙測
這項純軟件解決方案不由英偉達控制,用戶可自行安裝、配置和管理。它僅采集只讀遙測數據(如GPU使用、配置和錯誤指標),絕不修改GPU配置或底層運行機制。通過客戶端軟件智能體,用戶可將節點級數據流式傳輸至儀表板,實現全球GPU集群的實時可視化——既支持整體狀態洞察,也可按計算區域(同一物理或云位置的節點組)細化查看。
英偉達承諾工具安全透明
英偉達這套工具的客戶端智能體計劃開源,提供完整透明度和可審計性。英偉達重申GPU沒有硬件跟蹤技術,沒有GPU終止開關也沒有后門。云端算力服務工具只能讀遙測數據,無法修改GPU配置或底層運行機制。
預防算力集群瓶頸,提升用戶ROI
該軟件通過直觀儀表板,幫助運營商最大化GPU系統性能。數據中心運營商將能夠用這套工具能實時看到GPU“偷懶”或者不健康狀態,從而及時優化GPU集群工作狀態。
具體包括:
性能檢測并實時優化:追蹤功耗峰值、集群利用率、內存帶寬及互連狀況,在不超出能耗預算的前提下最大化單位功耗性能。
故障預警:及早發現熱點、氣流問題或異常錯誤,避免過熱降頻和組件過早老化,延長正常運行時間。發現錯誤和異常情況,及早發現故障部件。
一致性保障:確認軟件配置和設置一致,以確保結果可復現以及運行可靠。
所以這套工具的整體目標,還是幫助客戶提升使用GPU集群的ROI。平時使用能讓GPU集群工作的更好,小問題及時發現,避免影響數據中心運營商的業務受到影響。
關于檢測范圍。英偉達考慮到分布式GPU集群的趨勢,這套工具支持客戶全球GPU集群的整體狀態洞察。讓客戶不再是每個GPU集群都需要做一套性能監測工具。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.