在大模型訓(xùn)練與人工智能應(yīng)用全面普及的今天,人工智能基礎(chǔ)設(shè)施也逐漸走進(jìn)大眾視野。
“我們的模型是怎么被訓(xùn)練出來(lái)的?”“大量算力究竟跑在什么地方?”
這些原本只屬于技術(shù)團(tuán)隊(duì)的討論,如今正成為企業(yè)數(shù)字化轉(zhuǎn)型中的核心議題。
隨著算力需求以指數(shù)級(jí)增長(zhǎng),如何構(gòu)建、驗(yàn)證并交付一套穩(wěn)定、高效、可擴(kuò)展的科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施,正成為所有追求智能化競(jìng)爭(zhēng)力的組織無(wú)法回避的問(wèn)題。
本篇將以此為切入點(diǎn),探討新一代科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施的交付標(biāo)準(zhǔn)與實(shí)施要點(diǎn)。
一、觀念重構(gòu):這不是服務(wù)器,是“算力生命體”
傳統(tǒng)IT基礎(chǔ)設(shè)施與科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施,到底有哪些區(qū)別呢?
在智算時(shí)代,僅僅把服務(wù)器堆在一起并配置好傳統(tǒng)網(wǎng)絡(luò)是無(wú)法完全跑通的,至少在應(yīng)用層面會(huì)遇到各種各樣的問(wèn)題,最主要體現(xiàn)在兼容性、性能、可靠性等決定集群可用性的問(wèn)題。
IBM在人工智能基礎(chǔ)設(shè)施報(bào)告內(nèi)指出:傳統(tǒng) IT 的核心是“穩(wěn)定與兼容”,而人工智能基礎(chǔ)設(shè)施的使命是“性能與效率”。
我們可以通過(guò)一個(gè)表格來(lái)直觀對(duì)比兩者的差異:
![]()
科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施的設(shè)計(jì)不再是單一服務(wù)器或集群的堆疊,而是一個(gè)“算力網(wǎng)絡(luò)”體系:
![]()
科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施真正的價(jià)值,在于讓算力像電力一樣可調(diào)用、像網(wǎng)絡(luò)一樣可擴(kuò)展、像系統(tǒng)一樣可自愈。
二、科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施交付標(biāo)準(zhǔn):從硬件一致到性能驗(yàn)收
在智算中心和人工智能集群的落地過(guò)程中,“交付”是質(zhì)量與可信度的分水嶺。
只有經(jīng)過(guò)嚴(yán)苛測(cè)試與標(biāo)準(zhǔn)化驗(yàn)證的系統(tǒng),才能在大模型訓(xùn)練中保持穩(wěn)定高效,來(lái)看看我們?cè)诮桓肚笆窃趺醋龅摹?/p>
![]()
數(shù)據(jù)中心基礎(chǔ)設(shè)施日益復(fù)雜,需要高效的解決方案來(lái)簡(jiǎn)化網(wǎng)絡(luò)運(yùn)營(yíng)。
NVIDIA Air 通過(guò)創(chuàng)建真實(shí)數(shù)據(jù)中心基礎(chǔ)設(shè)施部署的相同副本,提升云規(guī)模效率。
NVIDIA Air 允許用戶使用完整的軟件功能對(duì)數(shù)據(jù)中心部署進(jìn)行建模,從而創(chuàng)建數(shù)字孿生。通過(guò)仿真、驗(yàn)證以及自動(dòng)化變更和更新,轉(zhuǎn)變并加速人工智能落地時(shí)間。
基礎(chǔ)設(shè)施仿真:基于 Linux 的開(kāi)放、云原生架構(gòu),可通過(guò)瀏覽器 GUI 或 CLI 表示基于NVIDIA的以太網(wǎng)交換機(jī)與通用服務(wù)器;
網(wǎng)絡(luò)即服務(wù):適用于 Cumulus Linux、SONiC 和 NetQ 等網(wǎng)絡(luò)軟件堆棧的、基于裸金屬的仿真;
主機(jī)支持:x86 服務(wù)器仿真(包含操作系統(tǒng)、應(yīng)用等);
預(yù)構(gòu)建網(wǎng)絡(luò)模板:配備完備的葉脊網(wǎng)絡(luò)架構(gòu),運(yùn)行多種 NOS 以進(jìn)行網(wǎng)絡(luò)功能測(cè)試,減少了在實(shí)際項(xiàng)目中遇到的網(wǎng)絡(luò)配置等其他突發(fā)情況而造成的問(wèn)題,縮短了項(xiàng)目整體的構(gòu)建與交付時(shí)間。
![]()
①硬件一致性與健康性
CPU:在集群中,CPU不僅要關(guān)注單個(gè)核心的溫度與頻率,更需關(guān)注所有節(jié)點(diǎn)整體使用率的均衡性。
比如是否存在部分節(jié)點(diǎn)因軟件鎖或硬件瓶頸(如PCIe通道故障)而長(zhǎng)期降頻,影響性能導(dǎo)致利用率低等問(wèn)題。
驗(yàn)收需要關(guān)注型號(hào)、物理核心數(shù)、邏輯核心數(shù)、主頻。
GPU:這是智算集群的絕對(duì)核心。
診斷需覆蓋每張GPU卡的核心溫度、顯存溫度、功耗、計(jì)算與顯存使用率。
尤其在高強(qiáng)度模型訓(xùn)練中,顯存的健康(如ECC糾錯(cuò)計(jì)數(shù))至關(guān)重要,頻繁的糾錯(cuò)可能預(yù)示顯存顆粒的物理老化。
更關(guān)鍵的是,需要檢測(cè)是否存在慢節(jié)點(diǎn)——即節(jié)點(diǎn)內(nèi)某張GPU故障或ECC錯(cuò)誤而導(dǎo)致訓(xùn)練中斷集群性能測(cè)試的問(wèn)題,也就拖慢了交付的進(jìn)度。
驗(yàn)收時(shí)關(guān)注型號(hào)、數(shù)量、顯存、GPU驅(qū)動(dòng)版本、CUDA驅(qū)動(dòng)版本。
![]()
圖源:NVIDIA官網(wǎng)
存儲(chǔ):對(duì)于NVMe SSD,需監(jiān)控其讀寫帶寬、IOPS(每秒讀寫操作次數(shù))以及延遲。
更重要的是,通過(guò)SMART信息預(yù)測(cè)壽命,避免在訓(xùn)練中途因硬盤故障而導(dǎo)致的任務(wù)中斷。
InfiniBand(RDMA)/以太網(wǎng)(RoCE)網(wǎng)絡(luò):
需要在交付前進(jìn)行長(zhǎng)時(shí)間的性能壓力測(cè)試,以檢測(cè)交換機(jī)端口狀態(tài)、光模塊溫度與收發(fā)光功率。
光功率衰減是常見(jiàn)故障點(diǎn)。其次,需監(jiān)控鏈路帶寬利用率、誤碼率、丟包率與通信延遲。
通過(guò)運(yùn)行all-to-all測(cè)試。計(jì)算網(wǎng)卡(InfiniBand/以太網(wǎng))的型號(hào)、固件版本,同時(shí)網(wǎng)卡的版本與交換機(jī)的固件版本對(duì)應(yīng)。
![]()
②性能與穩(wěn)定性驗(yàn)證
通過(guò)系統(tǒng)化壓力測(cè)試,確保每個(gè)節(jié)點(diǎn)在高負(fù)載下仍能保持線性性能:
CPU/內(nèi)存壓力測(cè)試:Prime95或stress-ng持續(xù)運(yùn)行72小時(shí)無(wú)錯(cuò)誤;
GPU穩(wěn)定性測(cè)試:NVIDIA DCGM與GPU Burn監(jiān)控顯存、溫度與穩(wěn)定度;
![]()
存儲(chǔ)I/O性能測(cè)試:驗(yàn)證4K隨機(jī)讀寫及順序帶寬達(dá)到預(yù)測(cè)標(biāo)準(zhǔn);
RDMA集合通信網(wǎng)絡(luò)性能測(cè)試:
在做大模型訓(xùn)練、科學(xué)計(jì)算應(yīng)用時(shí),很多服務(wù)器不是各自干各自的活,而是要一起協(xié)同工作。為了讓它們能又快又穩(wěn)地交換數(shù)據(jù),我們一般會(huì)用到 RDMA 這種比普通網(wǎng)絡(luò)更快、更低延遲的通信方式。
但問(wèn)題來(lái)了,這些服務(wù)器之間要經(jīng)常做“集合通信”,比如大家一起廣播一份參數(shù)、一起做 All-Reduce 聚合梯度。
如果網(wǎng)絡(luò)不穩(wěn)定、不夠快、延遲忽高忽低,就會(huì)拖慢整個(gè)訓(xùn)練進(jìn)度,甚至讓任務(wù)直接失敗。
所以在集群交付前整體測(cè)試一遍網(wǎng)絡(luò)性能是必須要做的事情,否則在交付后,很可能因?yàn)闊o(wú)法正常進(jìn)行通信,單點(diǎn)故障也可能導(dǎo)致無(wú)法正常訓(xùn)練、推理,從而導(dǎo)致集群無(wú)法交付。
![]()
③通信網(wǎng)絡(luò)健康與拓?fù)潋?yàn)證
人工智能集群性能瓶頸多源于通信層。
交付階段需要檢查交換機(jī)端口與光模塊狀態(tài);繪制“網(wǎng)絡(luò)心電圖”,提前排查慢鏈路;使用ibdiagnet與perftest工具進(jìn)行鏈路完整性驗(yàn)證。
唯有穩(wěn)定的通信底座,才能讓算力真正釋放,否則按照現(xiàn)有算力資源設(shè)計(jì),任何單節(jié)點(diǎn)的故障都可能導(dǎo)致集群的可用性降低,從而導(dǎo)致業(yè)務(wù)停滯。
三、人工智能未來(lái)的方向:智能化、綠色化、可觀測(cè)化
隨著人工智能應(yīng)用的規(guī)模化擴(kuò)展,科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施的交付標(biāo)準(zhǔn)也在不斷演進(jìn):
①智能且高效的運(yùn)維算力基礎(chǔ)設(shè)施
通過(guò)GPU Telemetry、DCGM與IB監(jiān)控實(shí)現(xiàn)全棧可觀測(cè),支持預(yù)測(cè)性維護(hù)與自動(dòng)修復(fù)。
②彈性算力池化
隨著GPU虛擬化與云原生調(diào)度技術(shù)成熟,人工智能集群正向算力池化架構(gòu)演進(jìn),支持多任務(wù)、多租戶、優(yōu)先級(jí)的靈活調(diào)度,讓算力可以按需使用。
借助 GPU 資源切分與彈性伸縮技術(shù),平臺(tái)能將 GPU 利用率從傳統(tǒng)的 10%~20% 提升至 50%~60%,部分場(chǎng)景可達(dá) 70%~80%,為算力高效利用提供了技術(shù)保障。
③綠色數(shù)據(jù)中心
液冷系統(tǒng)與動(dòng)態(tài)功耗管理技術(shù)讓人工智能集群能效顯著提升,PUE可降至1.2以下,打造低碳智算中心。
④標(biāo)準(zhǔn)化交付體系(重點(diǎn))
從硬件驗(yàn)收、性能基線到文檔化驗(yàn)證,人工智能集群交付正邁向體系化與可追溯標(biāo)準(zhǔn),為企業(yè)提供可靠、透明的交付保障。
以下是我們?cè)趯?shí)施過(guò)超萬(wàn)卡GPU總結(jié)的驗(yàn)收標(biāo)準(zhǔn)項(xiàng):
![]()
四、人工智能基礎(chǔ)設(shè)施的建設(shè)與總結(jié)
現(xiàn)在的人工智能基礎(chǔ)設(shè)施,已經(jīng)遠(yuǎn)遠(yuǎn)不是“把服務(wù)器拼在一起”那么簡(jiǎn)單了。
隨著模型越來(lái)越大、業(yè)務(wù)越來(lái)越復(fù)雜,僅僅擁有算力并不能保證系統(tǒng)真正跑得快、跑得穩(wěn)。
企業(yè)需要一套標(biāo)準(zhǔn)化、智能化、可驗(yàn)證的建設(shè)與交付體系——
從機(jī)房規(guī)劃、硬件部署、網(wǎng)絡(luò)架構(gòu),到軟件環(huán)境、模型訓(xùn)練,再到性能驗(yàn)證、穩(wěn)定性測(cè)試,每一步都要做到可復(fù)現(xiàn)、可檢查、可追蹤。
只有這樣,企業(yè)才能真正實(shí)現(xiàn)從“堆算力”到“用好算力”的轉(zhuǎn)變,讓人工智能系統(tǒng)不僅能運(yùn)行,更能持續(xù)穩(wěn)定地輸出價(jià)值,加速智能應(yīng)用落地,最終完成從構(gòu)建算力基礎(chǔ)到釋放智能生產(chǎn)力的跨越。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.