網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

探討科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施的交付標(biāo)準(zhǔn)

2025-12-16 09:56:53　來(lái)源: AI全球總部

北京舉報(bào)

分享至

在大模型訓(xùn)練與人工智能應(yīng)用全面普及的今天，人工智能基礎(chǔ)設(shè)施也逐漸走進(jìn)大眾視野。

“我們的模型是怎么被訓(xùn)練出來(lái)的？”“大量算力究竟跑在什么地方？”

這些原本只屬于技術(shù)團(tuán)隊(duì)的討論，如今正成為企業(yè)數(shù)字化轉(zhuǎn)型中的核心議題。

隨著算力需求以指數(shù)級(jí)增長(zhǎng)，如何構(gòu)建、驗(yàn)證并交付一套穩(wěn)定、高效、可擴(kuò)展的科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施，正成為所有追求智能化競(jìng)爭(zhēng)力的組織無(wú)法回避的問(wèn)題。

本篇將以此為切入點(diǎn)，探討新一代科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施的交付標(biāo)準(zhǔn)與實(shí)施要點(diǎn)。

一、觀念重構(gòu)：這不是服務(wù)器，是“算力生命體”

傳統(tǒng)IT基礎(chǔ)設(shè)施與科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施，到底有哪些區(qū)別呢？

在智算時(shí)代，僅僅把服務(wù)器堆在一起并配置好傳統(tǒng)網(wǎng)絡(luò)是無(wú)法完全跑通的，至少在應(yīng)用層面會(huì)遇到各種各樣的問(wèn)題，最主要體現(xiàn)在兼容性、性能、可靠性等決定集群可用性的問(wèn)題。

IBM在人工智能基礎(chǔ)設(shè)施報(bào)告內(nèi)指出：傳統(tǒng) IT 的核心是“穩(wěn)定與兼容”，而人工智能基礎(chǔ)設(shè)施的使命是“性能與效率”。

我們可以通過(guò)一個(gè)表格來(lái)直觀對(duì)比兩者的差異：

科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施的設(shè)計(jì)不再是單一服務(wù)器或集群的堆疊，而是一個(gè)“算力網(wǎng)絡(luò)”體系：

科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施真正的價(jià)值，在于讓算力像電力一樣可調(diào)用、像網(wǎng)絡(luò)一樣可擴(kuò)展、像系統(tǒng)一樣可自愈。

二、科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施交付標(biāo)準(zhǔn)：從硬件一致到性能驗(yàn)收

在智算中心和人工智能集群的落地過(guò)程中，“交付”是質(zhì)量與可信度的分水嶺。

只有經(jīng)過(guò)嚴(yán)苛測(cè)試與標(biāo)準(zhǔn)化驗(yàn)證的系統(tǒng)，才能在大模型訓(xùn)練中保持穩(wěn)定高效，來(lái)看看我們?cè)诮桓肚笆窃趺醋龅摹?/p>

數(shù)據(jù)中心基礎(chǔ)設(shè)施日益復(fù)雜，需要高效的解決方案來(lái)簡(jiǎn)化網(wǎng)絡(luò)運(yùn)營(yíng)。

NVIDIA Air 通過(guò)創(chuàng)建真實(shí)數(shù)據(jù)中心基礎(chǔ)設(shè)施部署的相同副本，提升云規(guī)模效率。

NVIDIA Air 允許用戶使用完整的軟件功能對(duì)數(shù)據(jù)中心部署進(jìn)行建模，從而創(chuàng)建數(shù)字孿生。通過(guò)仿真、驗(yàn)證以及自動(dòng)化變更和更新，轉(zhuǎn)變并加速人工智能落地時(shí)間。

基礎(chǔ)設(shè)施仿真：基于 Linux 的開(kāi)放、云原生架構(gòu)，可通過(guò)瀏覽器 GUI 或 CLI 表示基于NVIDIA的以太網(wǎng)交換機(jī)與通用服務(wù)器；

網(wǎng)絡(luò)即服務(wù)：適用于 Cumulus Linux、SONiC 和 NetQ 等網(wǎng)絡(luò)軟件堆棧的、基于裸金屬的仿真；

主機(jī)支持：x86 服務(wù)器仿真（包含操作系統(tǒng)、應(yīng)用等）；

預(yù)構(gòu)建網(wǎng)絡(luò)模板：配備完備的葉脊網(wǎng)絡(luò)架構(gòu)，運(yùn)行多種 NOS 以進(jìn)行網(wǎng)絡(luò)功能測(cè)試，減少了在實(shí)際項(xiàng)目中遇到的網(wǎng)絡(luò)配置等其他突發(fā)情況而造成的問(wèn)題，縮短了項(xiàng)目整體的構(gòu)建與交付時(shí)間。

①硬件一致性與健康性

CPU：在集群中，CPU不僅要關(guān)注單個(gè)核心的溫度與頻率，更需關(guān)注所有節(jié)點(diǎn)整體使用率的均衡性。

比如是否存在部分節(jié)點(diǎn)因軟件鎖或硬件瓶頸（如PCIe通道故障）而長(zhǎng)期降頻，影響性能導(dǎo)致利用率低等問(wèn)題。

驗(yàn)收需要關(guān)注型號(hào)、物理核心數(shù)、邏輯核心數(shù)、主頻。

GPU：這是智算集群的絕對(duì)核心。

診斷需覆蓋每張GPU卡的核心溫度、顯存溫度、功耗、計(jì)算與顯存使用率。

尤其在高強(qiáng)度模型訓(xùn)練中，顯存的健康（如ECC糾錯(cuò)計(jì)數(shù)）至關(guān)重要，頻繁的糾錯(cuò)可能預(yù)示顯存顆粒的物理老化。

更關(guān)鍵的是，需要檢測(cè)是否存在慢節(jié)點(diǎn)——即節(jié)點(diǎn)內(nèi)某張GPU故障或ECC錯(cuò)誤而導(dǎo)致訓(xùn)練中斷集群性能測(cè)試的問(wèn)題，也就拖慢了交付的進(jìn)度。

驗(yàn)收時(shí)關(guān)注型號(hào)、數(shù)量、顯存、GPU驅(qū)動(dòng)版本、CUDA驅(qū)動(dòng)版本。

圖源：NVIDIA官網(wǎng)

存儲(chǔ)：對(duì)于NVMe SSD，需監(jiān)控其讀寫帶寬、IOPS（每秒讀寫操作次數(shù)）以及延遲。

更重要的是，通過(guò)SMART信息預(yù)測(cè)壽命，避免在訓(xùn)練中途因硬盤故障而導(dǎo)致的任務(wù)中斷。

InfiniBand（RDMA）/以太網(wǎng)（RoCE）網(wǎng)絡(luò)：

需要在交付前進(jìn)行長(zhǎng)時(shí)間的性能壓力測(cè)試，以檢測(cè)交換機(jī)端口狀態(tài)、光模塊溫度與收發(fā)光功率。

光功率衰減是常見(jiàn)故障點(diǎn)。其次，需監(jiān)控鏈路帶寬利用率、誤碼率、丟包率與通信延遲。

通過(guò)運(yùn)行all-to-all測(cè)試。計(jì)算網(wǎng)卡（InfiniBand/以太網(wǎng)）的型號(hào)、固件版本，同時(shí)網(wǎng)卡的版本與交換機(jī)的固件版本對(duì)應(yīng)。

②性能與穩(wěn)定性驗(yàn)證

通過(guò)系統(tǒng)化壓力測(cè)試，確保每個(gè)節(jié)點(diǎn)在高負(fù)載下仍能保持線性性能：

CPU/內(nèi)存壓力測(cè)試：Prime95或stress-ng持續(xù)運(yùn)行72小時(shí)無(wú)錯(cuò)誤；

GPU穩(wěn)定性測(cè)試：NVIDIA DCGM與GPU Burn監(jiān)控顯存、溫度與穩(wěn)定度；

存儲(chǔ)I/O性能測(cè)試：驗(yàn)證4K隨機(jī)讀寫及順序帶寬達(dá)到預(yù)測(cè)標(biāo)準(zhǔn)；

RDMA集合通信網(wǎng)絡(luò)性能測(cè)試：

在做大模型訓(xùn)練、科學(xué)計(jì)算應(yīng)用時(shí)，很多服務(wù)器不是各自干各自的活，而是要一起協(xié)同工作。為了讓它們能又快又穩(wěn)地交換數(shù)據(jù)，我們一般會(huì)用到 RDMA 這種比普通網(wǎng)絡(luò)更快、更低延遲的通信方式。

但問(wèn)題來(lái)了，這些服務(wù)器之間要經(jīng)常做“集合通信”，比如大家一起廣播一份參數(shù)、一起做 All-Reduce 聚合梯度。

如果網(wǎng)絡(luò)不穩(wěn)定、不夠快、延遲忽高忽低，就會(huì)拖慢整個(gè)訓(xùn)練進(jìn)度，甚至讓任務(wù)直接失敗。

所以在集群交付前整體測(cè)試一遍網(wǎng)絡(luò)性能是必須要做的事情，否則在交付后，很可能因?yàn)闊o(wú)法正常進(jìn)行通信，單點(diǎn)故障也可能導(dǎo)致無(wú)法正常訓(xùn)練、推理，從而導(dǎo)致集群無(wú)法交付。

③通信網(wǎng)絡(luò)健康與拓?fù)潋?yàn)證

人工智能集群性能瓶頸多源于通信層。

交付階段需要檢查交換機(jī)端口與光模塊狀態(tài)；繪制“網(wǎng)絡(luò)心電圖”，提前排查慢鏈路；使用ibdiagnet與perftest工具進(jìn)行鏈路完整性驗(yàn)證。

唯有穩(wěn)定的通信底座，才能讓算力真正釋放，否則按照現(xiàn)有算力資源設(shè)計(jì)，任何單節(jié)點(diǎn)的故障都可能導(dǎo)致集群的可用性降低，從而導(dǎo)致業(yè)務(wù)停滯。

三、人工智能未來(lái)的方向：智能化、綠色化、可觀測(cè)化

隨著人工智能應(yīng)用的規(guī)模化擴(kuò)展，科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施的交付標(biāo)準(zhǔn)也在不斷演進(jìn)：

①智能且高效的運(yùn)維算力基礎(chǔ)設(shè)施

通過(guò)GPU Telemetry、DCGM與IB監(jiān)控實(shí)現(xiàn)全棧可觀測(cè)，支持預(yù)測(cè)性維護(hù)與自動(dòng)修復(fù)。

②彈性算力池化

隨著GPU虛擬化與云原生調(diào)度技術(shù)成熟，人工智能集群正向算力池化架構(gòu)演進(jìn)，支持多任務(wù)、多租戶、優(yōu)先級(jí)的靈活調(diào)度，讓算力可以按需使用。

借助 GPU 資源切分與彈性伸縮技術(shù)，平臺(tái)能將 GPU 利用率從傳統(tǒng)的 10%～20% 提升至 50%～60%，部分場(chǎng)景可達(dá) 70%～80%，為算力高效利用提供了技術(shù)保障。

③綠色數(shù)據(jù)中心

液冷系統(tǒng)與動(dòng)態(tài)功耗管理技術(shù)讓人工智能集群能效顯著提升，PUE可降至1.2以下，打造低碳智算中心。

④標(biāo)準(zhǔn)化交付體系（重點(diǎn)）

從硬件驗(yàn)收、性能基線到文檔化驗(yàn)證，人工智能集群交付正邁向體系化與可追溯標(biāo)準(zhǔn)，為企業(yè)提供可靠、透明的交付保障。

以下是我們?cè)趯?shí)施過(guò)超萬(wàn)卡GPU總結(jié)的驗(yàn)收標(biāo)準(zhǔn)項(xiàng)：

四、人工智能基礎(chǔ)設(shè)施的建設(shè)與總結(jié)

現(xiàn)在的人工智能基礎(chǔ)設(shè)施，已經(jīng)遠(yuǎn)遠(yuǎn)不是“把服務(wù)器拼在一起”那么簡(jiǎn)單了。

隨著模型越來(lái)越大、業(yè)務(wù)越來(lái)越復(fù)雜，僅僅擁有算力并不能保證系統(tǒng)真正跑得快、跑得穩(wěn)。

企業(yè)需要一套標(biāo)準(zhǔn)化、智能化、可驗(yàn)證的建設(shè)與交付體系——

從機(jī)房規(guī)劃、硬件部署、網(wǎng)絡(luò)架構(gòu)，到軟件環(huán)境、模型訓(xùn)練，再到性能驗(yàn)證、穩(wěn)定性測(cè)試，每一步都要做到可復(fù)現(xiàn)、可檢查、可追蹤。

只有這樣，企業(yè)才能真正實(shí)現(xiàn)從“堆算力”到“用好算力”的轉(zhuǎn)變，讓人工智能系統(tǒng)不僅能運(yùn)行，更能持續(xù)穩(wěn)定地輸出價(jià)值，加速智能應(yīng)用落地，最終完成從構(gòu)建算力基礎(chǔ)到釋放智能生產(chǎn)力的跨越。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.