這項可選服務將幫助數據中心運營商監測整個 AI GPU 集群運行狀況,從而最大限度地延長正常運行時間。
![]()
隨著 AI 基礎設施的規模和復雜性不斷增加,數據中心運營商需要持續了解性能、溫度和功耗等因素。這些洞察使數據中心運營商能夠主動監測和調整大規模分布式系統中的數據中心配置,從而確保這些系統以最高效率和可靠性運行。
NVIDIA 正在開發用于可視化和監測 NVIDIA GPU 集群的軟件解決方案,為云合作伙伴和企業提供洞察儀表板,幫助他們提高整個計算基礎設施的 GPU 正常運行時間。
該服務由客戶選擇、自行安裝和控制,用于監測 GPU 使用情況、配置和錯誤。它將包含一個開源客戶端軟件智能體,這是 NVIDIA 持續支持開放、透明軟件的一部分,旨在幫助客戶最大限度的發揮其 GPU 系統的性能。
通過這項服務,數據中心運營商將能夠:
- 追蹤功耗峰值,在不超出能耗預算的前提下最大化單位功耗性能。
- 監測整個集群的利用率、內存帶寬和互連運行狀況。
- 及早發現熱點和氣流問題,以避免過熱降頻和組件過早老化。
- 確認軟件配置和設置一致,以確保結果可復現以及運行可靠。
- NVIDIA 軟件可選服務支持數據中心集群管理發現錯誤和異常情況,及早發現故障部件。
這些功能可以幫助企業和云提供商可視化其 GPU 集群、解決系統瓶頸并優化生產力,從而提高投資回報。
此可選服務提供實時監測,讓每個 GPU 系統與外部云服務通信和共享 GPU 指標。NVIDIA GPU 沒有硬件跟蹤技術、終止開關和后門。
以上為摘要內容,點擊鏈接閱讀完整內容:NVIDIA 軟件可選服務支持數據中心集群管理 | NVIDIA 英偉達博客
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.