網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

這家中國(guó)公司，讓GPU利用率飆升！全球AI圈熱議

2025-11-20 15:21:24　來(lái)源: 技術(shù)領(lǐng)導(dǎo)力

浙江舉報(bào)

分享至

最近，我遇到一個(gè)十分頭疼的問(wèn)題，K哥團(tuán)隊(duì)有一組集群機(jī)器，配了4張GPU顯卡，平時(shí)主要用來(lái)測(cè)評(píng)大模型、開(kāi)發(fā)AI應(yīng)用。本來(lái)應(yīng)該是夠用了，但是在使用GPU的時(shí)候經(jīng)常是獨(dú)占式的，一個(gè)任務(wù)占了整張卡，利用率卻只有30%，別的任務(wù)就要排隊(duì)。

一邊是GPU大把閑置，一邊是開(kāi)發(fā)人員排隊(duì)等資源。就像餐廳里明明有空位，但因?yàn)槊孔乐蛔艘粋€(gè)人，后面的客人還得等位。造成了算力資源的浪費(fèi)，很多企業(yè)應(yīng)該都面臨類(lèi)似的困境。

GPU資源管理困局

關(guān)于GPU資源管理的問(wèn)題，其實(shí)遠(yuǎn)不止利用率不高這一點(diǎn)，在使用過(guò)程中普遍會(huì)遇到以下四個(gè)問(wèn)題：

1、資源顆粒度太粗。如前面說(shuō)的場(chǎng)景，一張16GB的T4卡，只能整卡分配，利用率只有30%，白白浪費(fèi)11G多。

2、調(diào)度機(jī)制不夠智能。K8s原生調(diào)度只知道“有卡”或“沒(méi)卡”，不知道卡上還剩多少顯存、算力，就好比一個(gè)停車(chē)場(chǎng)雖然車(chē)位滿(mǎn)了，但是還能夠塞進(jìn)很多輛摩托車(chē)。

3、資源隔離難。開(kāi)發(fā)、測(cè)試、生產(chǎn)環(huán)境混在一起，沒(méi)法給不同團(tuán)隊(duì)單獨(dú)的工作區(qū)間，避免相互干擾。

4、管理成本高。傳統(tǒng)的資源申請(qǐng)要走人工審批，出了問(wèn)題也要排查很久，導(dǎo)致管理成本很高。

如何才能更高效地管理GPU資源，難道以上問(wèn)題就沒(méi)有更好的解決方案嗎？

OrionX社區(qū)版，初體驗(yàn)

一次偶然的機(jī)會(huì)，我了解到OrionX社區(qū)版。這是由趨動(dòng)科技開(kāi)發(fā)的，OrionX的輕量級(jí)部署版本，幫助用戶(hù)構(gòu)建數(shù)據(jù)中心級(jí)AI算力資源池、降本增效。它的核心理念是：用軟件定義AI算力，讓GPU資源像云計(jì)算一樣靈活。

原理也不復(fù)雜，就是把顯卡、算力按很小的粒度進(jìn)行切分，然后根據(jù)用戶(hù)實(shí)際需要進(jìn)行組合。傳統(tǒng)的GPU管理就像飯店的包間，你一個(gè)人也得開(kāi)一間，而OrionX社區(qū)版把包間改成拼桌，來(lái)幾個(gè)人就坐幾個(gè)位子，靈活調(diào)整，絕不浪費(fèi)。

OrionX社區(qū)版究竟能不能解決GPU管理的困境呢？我上手做了個(gè)測(cè)評(píng)，下面跟隨我一起來(lái)體驗(yàn)吧。

首先，從官網(wǎng)上提交申請(qǐng)，掃碼填寫(xiě)信息：

審核通過(guò)后，會(huì)收到一封確認(rèn)郵件，獲取授權(quán)碼、下載地址。

下載安裝文件，上傳到服務(wù)器，準(zhǔn)備開(kāi)始安裝。

安裝的過(guò)程很簡(jiǎn)單，主要是基于K8S環(huán)境進(jìn)行部署。開(kāi)始部署前需要對(duì)安裝環(huán)境做基礎(chǔ)檢查，包括：

GPU驅(qū)動(dòng)檢查：nvidia-smi

Kubernetes環(huán)境檢查：get node -owide

Nvidia Container Toolkit檢查：

docker info | grep 'Default Runtime'

狀態(tài)正常，就可以開(kāi)始部署了。

1）部署文件上傳

上傳OrionX部署文件yaml.tar.gz至K8S管理節(jié)點(diǎn)任意位置，并解壓.

2）K8S節(jié)點(diǎn)標(biāo)記

編輯部署文件tools/label.sh腳本，按資源規(guī)劃修改如下內(nèi)容，然后對(duì)執(zhí)行K8S集群節(jié)點(diǎn)進(jìn)行標(biāo)記：

3）創(chuàng)建命名空間和配置信息對(duì)象

執(zhí)行如下操作，創(chuàng)建名為orionx的命名空間，創(chuàng)建OrionX配置信息ConfigMap對(duì)象，命令如下：

kubectl apply -f base/

4）部署orionx-ocenter-all-in-one組件

執(zhí)行如下操作，部署orionx-ocenter-all-in-one組件，命令如下：

kubectl apply -f deploy/orionx-ocenter-all-in-one.yaml

5）導(dǎo)入License

通過(guò)瀏覽器訪(fǎng)問(wèn)http://，打開(kāi)OrionX GUI管理頁(yè)面，通過(guò)激活頁(yè)面，添加激活文件按鈕導(dǎo)入License，導(dǎo)入后會(huì)顯示證書(shū)信息，如下圖所示：

:30125

6）部署orionx-k8s-scheduler組件

執(zhí)行如下操作，部署orionx-k8s-scheduler組件，命令如下：

kubectl apply -f deploy/orionx-k8s-scheduler-extender.yaml

7）部署orionx-server組件

部署orionx-server組件，修改配置文件如下，并執(zhí)行命令：

kubectl apply -f deploy/orionx-gpu-server.yaml

8）部署orionx-k8s-device-plugin組件

執(zhí)行如下操作，部署orionx-k8s-device-plugin組件，命令行：

kubectl apply -f deploy/orionx-k8s-device-plugin.yaml

9）部署orionx-gpu-exporter組件

執(zhí)行如下操作，部署orionx-gpu-exporter組件，會(huì)部署于所有OrionX GPU計(jì)算節(jié)點(diǎn)：

kubectl apply -f deploy/orionx-gpu-exporter.yam

10）部署orionx-k8s-admission-webhooks組件

執(zhí)行如下命令，部署orionx-k8s-admission-webhooks組件：

kubectl apply -f deploy/orionx-k8s-admission-webhooks.yaml

11）部署orionx-container-runtime組件

執(zhí)行如下操作，部署orionx-container-runtime組件：

kubectl apply -f deploy/orionx-container-runtime.yaml

現(xiàn)在就可以開(kāi)始使用Orion社區(qū)版了，整體安裝過(guò)程很絲滑，下面就可以到后臺(tái)去操作了。瀏覽器訪(fǎng)問(wèn)http://地址，打開(kāi)OrionX GUI，進(jìn)行登錄，初始用戶(hù)名密碼見(jiàn)安裝手冊(cè)。

:30125

進(jìn)入節(jié)點(diǎn)詳情頁(yè)面可以查看該節(jié)點(diǎn)GPU資源使用率監(jiān)控統(tǒng)計(jì)圖。

還可以進(jìn)行節(jié)點(diǎn)管理。在OrionX GUI左側(cè)導(dǎo)航欄選擇“節(jié)點(diǎn)”，在節(jié)點(diǎn)信息頁(yè)面可以禁用或啟用節(jié)點(diǎn)。

整個(gè)安裝過(guò)程很順滑，只要具備基本的Linux使用能力，就可以輕松完成。

輕松管理你的GPU資源池

下面談?wù)勎覍?duì)OrionX社區(qū)版的總體使用感受，主要有四點(diǎn)體會(huì)：

1、資源分配靈活，告別“大鍋飯”。更細(xì)粒度地分配GPU資源，提高資源利用率，這就解決了我們團(tuán)隊(duì)遇到的GPU獨(dú)占的問(wèn)題，而且申請(qǐng)資源無(wú)須再等待，提升了日常管理效率。

2、智能調(diào)度，讓資源分配更合理。GPU的調(diào)度是智能化的，可以做到節(jié)點(diǎn)均勻，設(shè)備緊湊，節(jié)點(diǎn)優(yōu)先，這就解決了一些節(jié)點(diǎn)負(fù)載高、一些負(fù)載低的問(wèn)題，并且策略是可配置的。

3、超分，榨干GPU每一滴性能。很多任務(wù)不是一直滿(mǎn)負(fù)荷用GPU，推理任務(wù)經(jīng)常是突發(fā)式的，通過(guò)統(tǒng)一內(nèi)存管理和算力復(fù)用，可以分配出更多vGPU，合理使用超分功能可以進(jìn)一步提升GPU效能。

4、可視化管理，一目了然。Orion社區(qū)版的GUI界面做得很不錯(cuò)，資源監(jiān)控很直觀，點(diǎn)進(jìn)某個(gè)節(jié)點(diǎn)，可以看到詳細(xì)的監(jiān)控曲線(xiàn)、GPU利用率曲線(xiàn)（最近24小時(shí)）、顯存使用趨勢(shì)。

立刻開(kāi)啟GPU資源池化時(shí)代

OrionX社區(qū)版通過(guò)構(gòu)建算力資源池，將粗放的管理轉(zhuǎn)變?yōu)榫?xì)化運(yùn)營(yíng)，這是中國(guó)科技企業(yè)在AI基礎(chǔ)設(shè)施領(lǐng)域的突破。正如凱文·凱利在《必然》中所說(shuō)：“技術(shù)的真正力量，不在于它能做什么，而在于它讓更多人能做什么。”AI算力池化技術(shù)的價(jià)值，恰恰在于讓研發(fā)團(tuán)隊(duì)也能用得起、用得好AI算力，打破算力壟斷的壁壘。

如果你的團(tuán)隊(duì)也面臨GPU資源管理困境，立即掃碼申請(qǐng)使用OrionX社區(qū)版。

有興趣的朋友提交上面表單信息后，也可以添加下方小助手微信進(jìn)行交流。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.