![]()
用于監測整個GPU的運行狀況和庫存。
作者 | ZeR0
編輯 | 漠影
芯東西12月11日報道,今日,英偉達宣布正在開發用于可視化和監測GPU集群的軟件解決方案,并再度強調:“NVIDIA GPU沒有硬件跟蹤技術、終止開關和后門。”
此前據外媒報道,英偉達已開發出位置驗證技術,可顯示其芯片在哪個國家運行。今日英偉達在一篇博客文章中提供了更多相關細節,包括計劃將客戶端軟件智能體開源。
根據英偉達博客文章,這項新軟件解決方案是為了確保AI數據中心保持最佳狀態運行而設計,向云合作伙伴和企業提供洞察儀表板,可幫助數據中心運營商監測整個AI GPU集群運行狀況,提高整個計算基礎設施的GPU正常運行時間。
該功能將以軟件選件的形式提供給用戶安裝,并利用GPU的“機密計算能力”。這項服務由客戶選擇、自行安裝和控制,用于監測GPU使用情況、配置和錯誤。
通過這項服務,數據中心運營商將能夠:
- 追蹤功耗峰值,在不超出能耗預算的前提下最大化單位功耗性能。
- 監測整個集群的利用率、內存帶寬和互連運行狀況。
- 及早發現熱點和氣流問題,以避免過熱降頻和組件過早老化。
- 確認軟件配置和設置一致,以確保結果可復現以及運行可靠。
- 發現錯誤和異常情況,及早發現故障部件。
這些功能可以幫助企業和云提供商可視化其GPU集群、解決系統瓶頸并優化生產力,從而提高投資回報。
此可選服務提供實時監測,讓每個GPU系統與外部云服務通信和共享GPU指標。服務將配備客戶端軟件智能體,客戶可安裝該智能體,將節點級GPU遙測數據流式傳輸到托管在NVIDIA NGC的門戶網站上。
客戶可在儀表板中可視化其GPU集群利用率,既可以全局查看,也可以按計算區域(在同一物理或云位置注冊的節點組)查看。
![]()
該客戶端工具智能體也計劃開源,以提供透明度和可審計性。它將提供一個實際示例,展示客戶如何將英偉達工具整合到他們自己的GPU基礎設施監測解決方案中。
這一軟件能夠幫助企業了解其GPU庫存情況,但無法修改GPU配置或底層運行機制。它提供的是只讀遙測數據,并由客戶自行管理及自定義。
該服務還支持客戶生成詳細介紹GPU集群信息的報告。
另據外媒今日報道,英偉達周三透露,“沒有功能允許英偉達遠程控制或對已注冊系統采取行動”,發送給英偉達服務器的遙測數據是“只讀的”,這意味著該公司的服務器不能將數據寫回芯片,“英偉達GPU內部沒有允許英偉達或遠程參與者禁用英偉達GPU的功能”。
該功能將首先在英偉達最新的Blackwell芯片上實現,英偉達也在研究前幾代芯片的選擇。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.