英偉達(dá)近日發(fā)布稱,正在開發(fā)用于可視化和監(jiān)測英偉達(dá)GPU集群的軟件解決方案,為云合作伙伴和企業(yè)提供洞察儀表板,幫助他們提高整個(gè)計(jì)算基礎(chǔ)設(shè)施的GPU正常運(yùn)行時(shí)間。
據(jù)了解,該服務(wù)由客戶選擇、自行安裝和控制,用于監(jiān)測GPU使用情況、配置和錯(cuò)誤。它將包含一個(gè)開源客戶端軟件智能體,這是英偉達(dá)持續(xù)支持開放、透明軟件的一部分,旨在幫助客戶最大限度的發(fā)揮其GPU系統(tǒng)的性能。
總體來看,這套工具是一個(gè)云端算力集群控制工具,有點(diǎn)類似PC上的任務(wù)管理器。客戶可以自行決定是否開啟,服務(wù)由英偉達(dá)官網(wǎng)托管。未來這套工具會(huì)計(jì)劃開源。
![]()
核心機(jī)制:客戶自主,只讀遙測
這項(xiàng)純軟件解決方案不由英偉達(dá)控制,用戶可自行安裝、配置和管理。它僅采集只讀遙測數(shù)據(jù)(如GPU使用、配置和錯(cuò)誤指標(biāo)),絕不修改GPU配置或底層運(yùn)行機(jī)制。通過客戶端軟件智能體,用戶可將節(jié)點(diǎn)級數(shù)據(jù)流式傳輸至儀表板,實(shí)現(xiàn)全球GPU集群的實(shí)時(shí)可視化——既支持整體狀態(tài)洞察,也可按計(jì)算區(qū)域(同一物理或云位置的節(jié)點(diǎn)組)細(xì)化查看。
英偉達(dá)承諾工具安全透明
英偉達(dá)這套工具的客戶端智能體計(jì)劃開源,提供完整透明度和可審計(jì)性。英偉達(dá)重申GPU沒有硬件跟蹤技術(shù),沒有GPU終止開關(guān)也沒有后門。云端算力服務(wù)工具只能讀遙測數(shù)據(jù),無法修改GPU配置或底層運(yùn)行機(jī)制。
預(yù)防算力集群瓶頸,提升用戶ROI
該軟件通過直觀儀表板,幫助運(yùn)營商最大化GPU系統(tǒng)性能。數(shù)據(jù)中心運(yùn)營商將能夠用這套工具能實(shí)時(shí)看到GPU“偷懶”或者不健康狀態(tài),從而及時(shí)優(yōu)化GPU集群工作狀態(tài)。
具體包括:
性能檢測并實(shí)時(shí)優(yōu)化:追蹤功耗峰值、集群利用率、內(nèi)存帶寬及互連狀況,在不超出能耗預(yù)算的前提下最大化單位功耗性能。
故障預(yù)警:及早發(fā)現(xiàn)熱點(diǎn)、氣流問題或異常錯(cuò)誤,避免過熱降頻和組件過早老化,延長正常運(yùn)行時(shí)間。發(fā)現(xiàn)錯(cuò)誤和異常情況,及早發(fā)現(xiàn)故障部件。
一致性保障:確認(rèn)軟件配置和設(shè)置一致,以確保結(jié)果可復(fù)現(xiàn)以及運(yùn)行可靠。
所以這套工具的整體目標(biāo),還是幫助客戶提升使用GPU集群的ROI。平時(shí)使用能讓GPU集群工作的更好,小問題及時(shí)發(fā)現(xiàn),避免影響數(shù)據(jù)中心運(yùn)營商的業(yè)務(wù)受到影響。
關(guān)于檢測范圍。英偉達(dá)考慮到分布式GPU集群的趨勢,這套工具支持客戶全球GPU集群的整體狀態(tài)洞察。讓客戶不再是每個(gè)GPU集群都需要做一套性能監(jiān)測工具。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.