品玩1月21日訊,據(jù) Yahoo Finance 報(bào)道,軟銀公司旗下Infrinia團(tuán)隊(duì)已開(kāi)發(fā)完成面向未來(lái)AI數(shù)據(jù)中心的軟件平臺(tái)“Infrinia AI Cloud OS”。該平臺(tái)通過(guò)自動(dòng)化手段,統(tǒng)一管理從硬件到應(yīng)用層的整個(gè)GPU算力技術(shù)棧,以應(yīng)對(duì)生成式AI、自動(dòng)化機(jī)器人等領(lǐng)域?qū)PU算力快速增長(zhǎng)且日趨復(fù)雜的多樣化需求。
Infrinia AI Cloud OS提供了完整的Kubernetes即服務(wù)能力,能在包括英偉達(dá)GB200 NVL72在內(nèi)的各類GPU平臺(tái)上,實(shí)現(xiàn)對(duì)從BIOS、操作系統(tǒng)、驅(qū)動(dòng)、網(wǎng)絡(luò)到Kubernetes控制器與存儲(chǔ)的整個(gè)技術(shù)棧進(jìn)行自動(dòng)化管理。
此外,該平臺(tái)支持基于軟件定義的動(dòng)態(tài)物理互聯(lián)與內(nèi)存重構(gòu)能力,可以根據(jù)用戶創(chuàng)建或刪除集群的需求,實(shí)時(shí)調(diào)整GPU節(jié)點(diǎn)間的連接方式與跨節(jié)點(diǎn)內(nèi)存配置,并依據(jù)GPU拓?fù)渥詣?dòng)分配節(jié)點(diǎn),以優(yōu)化延遲并最大化帶寬,適用于大規(guī)模分布式AI訓(xùn)練任務(wù)。
平臺(tái)還針對(duì)多租戶場(chǎng)景設(shè)計(jì)了高安全性與高可運(yùn)維性,通過(guò)加密通信與隔離機(jī)制保障租戶安全,并自動(dòng)化系統(tǒng)監(jiān)控與故障切換等運(yùn)維工作。該軟件將率先部署在軟銀自有的GPU云服務(wù)中,未來(lái)計(jì)劃推廣至海外數(shù)據(jù)中心與云環(huán)境。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.