這項(xiàng)可選服務(wù)將幫助數(shù)據(jù)中心運(yùn)營(yíng)商監(jiān)測(cè)整個(gè) AI GPU 集群運(yùn)行狀況,從而最大限度地延長(zhǎng)正常運(yùn)行時(shí)間。
![]()
隨著 AI 基礎(chǔ)設(shè)施的規(guī)模和復(fù)雜性不斷增加,數(shù)據(jù)中心運(yùn)營(yíng)商需要持續(xù)了解性能、溫度和功耗等因素。這些洞察使數(shù)據(jù)中心運(yùn)營(yíng)商能夠主動(dòng)監(jiān)測(cè)和調(diào)整大規(guī)模分布式系統(tǒng)中的數(shù)據(jù)中心配置,從而確保這些系統(tǒng)以最高效率和可靠性運(yùn)行。
NVIDIA 正在開發(fā)用于可視化和監(jiān)測(cè) NVIDIA GPU 集群的軟件解決方案,為云合作伙伴和企業(yè)提供洞察儀表板,幫助他們提高整個(gè)計(jì)算基礎(chǔ)設(shè)施的 GPU 正常運(yùn)行時(shí)間。
該服務(wù)由客戶選擇、自行安裝和控制,用于監(jiān)測(cè) GPU 使用情況、配置和錯(cuò)誤。它將包含一個(gè)開源客戶端軟件智能體,這是 NVIDIA 持續(xù)支持開放、透明軟件的一部分,旨在幫助客戶最大限度的發(fā)揮其 GPU 系統(tǒng)的性能。
通過(guò)這項(xiàng)服務(wù),數(shù)據(jù)中心運(yùn)營(yíng)商將能夠:
- 追蹤功耗峰值,在不超出能耗預(yù)算的前提下最大化單位功耗性能。
- 監(jiān)測(cè)整個(gè)集群的利用率、內(nèi)存帶寬和互連運(yùn)行狀況。
- 及早發(fā)現(xiàn)熱點(diǎn)和氣流問(wèn)題,以避免過(guò)熱降頻和組件過(guò)早老化。
- 確認(rèn)軟件配置和設(shè)置一致,以確保結(jié)果可復(fù)現(xiàn)以及運(yùn)行可靠。
- NVIDIA 軟件可選服務(wù)支持?jǐn)?shù)據(jù)中心集群管理發(fā)現(xiàn)錯(cuò)誤和異常情況,及早發(fā)現(xiàn)故障部件。
這些功能可以幫助企業(yè)和云提供商可視化其 GPU 集群、解決系統(tǒng)瓶頸并優(yōu)化生產(chǎn)力,從而提高投資回報(bào)。
此可選服務(wù)提供實(shí)時(shí)監(jiān)測(cè),讓每個(gè) GPU 系統(tǒng)與外部云服務(wù)通信和共享 GPU 指標(biāo)。NVIDIA GPU 沒有硬件跟蹤技術(shù)、終止開關(guān)和后門。
以上為摘要內(nèi)容,點(diǎn)擊鏈接閱讀完整內(nèi)容:NVIDIA 軟件可選服務(wù)支持?jǐn)?shù)據(jù)中心集群管理 | NVIDIA 英偉達(dá)博客
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.