<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      探討科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施的交付標(biāo)準(zhǔn)

      0
      分享至

      在大模型訓(xùn)練與人工智能應(yīng)用全面普及的今天,人工智能基礎(chǔ)設(shè)施也逐漸走進(jìn)大眾視野。

      “我們的模型是怎么被訓(xùn)練出來(lái)的?”“大量算力究竟跑在什么地方?”

      這些原本只屬于技術(shù)團(tuán)隊(duì)的討論,如今正成為企業(yè)數(shù)字化轉(zhuǎn)型中的核心議題。

      隨著算力需求以指數(shù)級(jí)增長(zhǎng),如何構(gòu)建、驗(yàn)證并交付一套穩(wěn)定、高效、可擴(kuò)展的科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施,正成為所有追求智能化競(jìng)爭(zhēng)力的組織無(wú)法回避的問(wèn)題。

      本篇將以此為切入點(diǎn),探討新一代科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施的交付標(biāo)準(zhǔn)與實(shí)施要點(diǎn)。

      一、觀念重構(gòu):這不是服務(wù)器,是“算力生命體”

      傳統(tǒng)IT基礎(chǔ)設(shè)施與科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施,到底有哪些區(qū)別呢?

      在智算時(shí)代,僅僅把服務(wù)器堆在一起并配置好傳統(tǒng)網(wǎng)絡(luò)是無(wú)法完全跑通的,至少在應(yīng)用層面會(huì)遇到各種各樣的問(wèn)題,最主要體現(xiàn)在兼容性、性能、可靠性等決定集群可用性的問(wèn)題。

      IBM在人工智能基礎(chǔ)設(shè)施報(bào)告內(nèi)指出:傳統(tǒng) IT 的核心是“穩(wěn)定與兼容”,而人工智能基礎(chǔ)設(shè)施的使命是“性能與效率”。

      我們可以通過(guò)一個(gè)表格來(lái)直觀對(duì)比兩者的差異:



      科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施的設(shè)計(jì)不再是單一服務(wù)器或集群的堆疊,而是一個(gè)“算力網(wǎng)絡(luò)”體系:



      科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施真正的價(jià)值,在于讓算力像電力一樣可調(diào)用、像網(wǎng)絡(luò)一樣可擴(kuò)展、像系統(tǒng)一樣可自愈。

      二、科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施交付標(biāo)準(zhǔn):從硬件一致到性能驗(yàn)收

      在智算中心和人工智能集群的落地過(guò)程中,“交付”是質(zhì)量與可信度的分水嶺。

      只有經(jīng)過(guò)嚴(yán)苛測(cè)試與標(biāo)準(zhǔn)化驗(yàn)證的系統(tǒng),才能在大模型訓(xùn)練中保持穩(wěn)定高效,來(lái)看看我們?cè)诮桓肚笆窃趺醋龅摹?/p>



      數(shù)據(jù)中心基礎(chǔ)設(shè)施日益復(fù)雜,需要高效的解決方案來(lái)簡(jiǎn)化網(wǎng)絡(luò)運(yùn)營(yíng)。

      NVIDIA Air 通過(guò)創(chuàng)建真實(shí)數(shù)據(jù)中心基礎(chǔ)設(shè)施部署的相同副本,提升云規(guī)模效率。

      NVIDIA Air 允許用戶使用完整的軟件功能對(duì)數(shù)據(jù)中心部署進(jìn)行建模,從而創(chuàng)建數(shù)字孿生。通過(guò)仿真、驗(yàn)證以及自動(dòng)化變更和更新,轉(zhuǎn)變并加速人工智能落地時(shí)間。

      基礎(chǔ)設(shè)施仿真:基于 Linux 的開(kāi)放、云原生架構(gòu),可通過(guò)瀏覽器 GUI 或 CLI 表示基于NVIDIA的以太網(wǎng)交換機(jī)與通用服務(wù)器;

      網(wǎng)絡(luò)即服務(wù):適用于 Cumulus Linux、SONiC 和 NetQ 等網(wǎng)絡(luò)軟件堆棧的、基于裸金屬的仿真;

      主機(jī)支持:x86 服務(wù)器仿真(包含操作系統(tǒng)、應(yīng)用等);

      預(yù)構(gòu)建網(wǎng)絡(luò)模板:配備完備的葉脊網(wǎng)絡(luò)架構(gòu),運(yùn)行多種 NOS 以進(jìn)行網(wǎng)絡(luò)功能測(cè)試,減少了在實(shí)際項(xiàng)目中遇到的網(wǎng)絡(luò)配置等其他突發(fā)情況而造成的問(wèn)題,縮短了項(xiàng)目整體的構(gòu)建與交付時(shí)間。



      ①硬件一致性與健康性

      CPU:在集群中,CPU不僅要關(guān)注單個(gè)核心的溫度與頻率,更需關(guān)注所有節(jié)點(diǎn)整體使用率的均衡性。

      比如是否存在部分節(jié)點(diǎn)因軟件鎖或硬件瓶頸(如PCIe通道故障)而長(zhǎng)期降頻,影響性能導(dǎo)致利用率低等問(wèn)題。

      驗(yàn)收需要關(guān)注型號(hào)、物理核心數(shù)、邏輯核心數(shù)、主頻。

      GPU:這是智算集群的絕對(duì)核心。

      診斷需覆蓋每張GPU卡的核心溫度、顯存溫度、功耗、計(jì)算與顯存使用率。

      尤其在高強(qiáng)度模型訓(xùn)練中,顯存的健康(如ECC糾錯(cuò)計(jì)數(shù))至關(guān)重要,頻繁的糾錯(cuò)可能預(yù)示顯存顆粒的物理老化。

      更關(guān)鍵的是,需要檢測(cè)是否存在慢節(jié)點(diǎn)——即節(jié)點(diǎn)內(nèi)某張GPU故障或ECC錯(cuò)誤而導(dǎo)致訓(xùn)練中斷集群性能測(cè)試的問(wèn)題,也就拖慢了交付的進(jìn)度。

      驗(yàn)收時(shí)關(guān)注型號(hào)、數(shù)量、顯存、GPU驅(qū)動(dòng)版本、CUDA驅(qū)動(dòng)版本。


      圖源:NVIDIA官網(wǎng)

      存儲(chǔ):對(duì)于NVMe SSD,需監(jiān)控其讀寫帶寬、IOPS(每秒讀寫操作次數(shù))以及延遲。

      更重要的是,通過(guò)SMART信息預(yù)測(cè)壽命,避免在訓(xùn)練中途因硬盤故障而導(dǎo)致的任務(wù)中斷。

      InfiniBand(RDMA)/以太網(wǎng)(RoCE)網(wǎng)絡(luò):

      需要在交付前進(jìn)行長(zhǎng)時(shí)間的性能壓力測(cè)試,以檢測(cè)交換機(jī)端口狀態(tài)、光模塊溫度與收發(fā)光功率。

      光功率衰減是常見(jiàn)故障點(diǎn)。其次,需監(jiān)控鏈路帶寬利用率、誤碼率、丟包率與通信延遲。

      通過(guò)運(yùn)行all-to-all測(cè)試。計(jì)算網(wǎng)卡(InfiniBand/以太網(wǎng))的型號(hào)、固件版本,同時(shí)網(wǎng)卡的版本與交換機(jī)的固件版本對(duì)應(yīng)。



      ②性能與穩(wěn)定性驗(yàn)證

      通過(guò)系統(tǒng)化壓力測(cè)試,確保每個(gè)節(jié)點(diǎn)在高負(fù)載下仍能保持線性性能:

      CPU/內(nèi)存壓力測(cè)試:Prime95或stress-ng持續(xù)運(yùn)行72小時(shí)無(wú)錯(cuò)誤;

      GPU穩(wěn)定性測(cè)試:NVIDIA DCGM與GPU Burn監(jiān)控顯存、溫度與穩(wěn)定度;



      存儲(chǔ)I/O性能測(cè)試:驗(yàn)證4K隨機(jī)讀寫及順序帶寬達(dá)到預(yù)測(cè)標(biāo)準(zhǔn);

      RDMA集合通信網(wǎng)絡(luò)性能測(cè)試:

      在做大模型訓(xùn)練、科學(xué)計(jì)算應(yīng)用時(shí),很多服務(wù)器不是各自干各自的活,而是要一起協(xié)同工作。為了讓它們能又快又穩(wěn)地交換數(shù)據(jù),我們一般會(huì)用到 RDMA 這種比普通網(wǎng)絡(luò)更快、更低延遲的通信方式。

      但問(wèn)題來(lái)了,這些服務(wù)器之間要經(jīng)常做“集合通信”,比如大家一起廣播一份參數(shù)、一起做 All-Reduce 聚合梯度。

      如果網(wǎng)絡(luò)不穩(wěn)定、不夠快、延遲忽高忽低,就會(huì)拖慢整個(gè)訓(xùn)練進(jìn)度,甚至讓任務(wù)直接失敗。

      所以在集群交付前整體測(cè)試一遍網(wǎng)絡(luò)性能是必須要做的事情,否則在交付后,很可能因?yàn)闊o(wú)法正常進(jìn)行通信,單點(diǎn)故障也可能導(dǎo)致無(wú)法正常訓(xùn)練、推理,從而導(dǎo)致集群無(wú)法交付。



      ③通信網(wǎng)絡(luò)健康與拓?fù)潋?yàn)證

      人工智能集群性能瓶頸多源于通信層。

      交付階段需要檢查交換機(jī)端口與光模塊狀態(tài);繪制“網(wǎng)絡(luò)心電圖”,提前排查慢鏈路;使用ibdiagnet與perftest工具進(jìn)行鏈路完整性驗(yàn)證。

      唯有穩(wěn)定的通信底座,才能讓算力真正釋放,否則按照現(xiàn)有算力資源設(shè)計(jì),任何單節(jié)點(diǎn)的故障都可能導(dǎo)致集群的可用性降低,從而導(dǎo)致業(yè)務(wù)停滯。

      三、人工智能未來(lái)的方向:智能化、綠色化、可觀測(cè)化

      隨著人工智能應(yīng)用的規(guī)模化擴(kuò)展,科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施的交付標(biāo)準(zhǔn)也在不斷演進(jìn):

      ①智能且高效的運(yùn)維算力基礎(chǔ)設(shè)施

      通過(guò)GPU Telemetry、DCGM與IB監(jiān)控實(shí)現(xiàn)全棧可觀測(cè),支持預(yù)測(cè)性維護(hù)與自動(dòng)修復(fù)。

      ②彈性算力池化

      隨著GPU虛擬化與云原生調(diào)度技術(shù)成熟,人工智能集群正向算力池化架構(gòu)演進(jìn),支持多任務(wù)、多租戶、優(yōu)先級(jí)的靈活調(diào)度,讓算力可以按需使用。

      借助 GPU 資源切分與彈性伸縮技術(shù),平臺(tái)能將 GPU 利用率從傳統(tǒng)的 10%~20% 提升至 50%~60%,部分場(chǎng)景可達(dá) 70%~80%,為算力高效利用提供了技術(shù)保障。

      ③綠色數(shù)據(jù)中心

      液冷系統(tǒng)與動(dòng)態(tài)功耗管理技術(shù)讓人工智能集群能效顯著提升,PUE可降至1.2以下,打造低碳智算中心。

      ④標(biāo)準(zhǔn)化交付體系(重點(diǎn))

      從硬件驗(yàn)收、性能基線到文檔化驗(yàn)證,人工智能集群交付正邁向體系化與可追溯標(biāo)準(zhǔn),為企業(yè)提供可靠、透明的交付保障。

      以下是我們?cè)趯?shí)施過(guò)超萬(wàn)卡GPU總結(jié)的驗(yàn)收標(biāo)準(zhǔn)項(xiàng):



      四、人工智能基礎(chǔ)設(shè)施的建設(shè)與總結(jié)

      現(xiàn)在的人工智能基礎(chǔ)設(shè)施,已經(jīng)遠(yuǎn)遠(yuǎn)不是“把服務(wù)器拼在一起”那么簡(jiǎn)單了。

      隨著模型越來(lái)越大、業(yè)務(wù)越來(lái)越復(fù)雜,僅僅擁有算力并不能保證系統(tǒng)真正跑得快、跑得穩(wěn)。

      企業(yè)需要一套標(biāo)準(zhǔn)化、智能化、可驗(yàn)證的建設(shè)與交付體系——

      從機(jī)房規(guī)劃、硬件部署、網(wǎng)絡(luò)架構(gòu),到軟件環(huán)境、模型訓(xùn)練,再到性能驗(yàn)證、穩(wěn)定性測(cè)試,每一步都要做到可復(fù)現(xiàn)、可檢查、可追蹤。

      只有這樣,企業(yè)才能真正實(shí)現(xiàn)從“堆算力”到“用好算力”的轉(zhuǎn)變,讓人工智能系統(tǒng)不僅能運(yùn)行,更能持續(xù)穩(wěn)定地輸出價(jià)值,加速智能應(yīng)用落地,最終完成從構(gòu)建算力基礎(chǔ)到釋放智能生產(chǎn)力的跨越。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      好萊塢女星吞槍自殺,吸毒成癮負(fù)債累累,20年沒(méi)拍戲靠撫養(yǎng)費(fèi)生存

      好萊塢女星吞槍自殺,吸毒成癮負(fù)債累累,20年沒(méi)拍戲靠撫養(yǎng)費(fèi)生存

      比利
      2025-12-27 13:11:35
      350億,又一家新勢(shì)力宣布破產(chǎn)

      350億,又一家新勢(shì)力宣布破產(chǎn)

      融資中國(guó)
      2025-12-26 12:27:57
      國(guó)安官宣巨變!54歲名宿李明離任,9年助隊(duì)奪2冠,德籍新老總接替

      國(guó)安官宣巨變!54歲名宿李明離任,9年助隊(duì)奪2冠,德籍新老總接替

      我愛(ài)英超
      2025-12-27 10:27:43
      71歲老人的睿智養(yǎng)老:不請(qǐng)保姆不去養(yǎng)老院,三個(gè)兒子都搶著來(lái)照顧

      71歲老人的睿智養(yǎng)老:不請(qǐng)保姆不去養(yǎng)老院,三個(gè)兒子都搶著來(lái)照顧

      人間百態(tài)大全
      2025-12-20 06:50:03
      被閨蜜和丈夫雙重背叛,女子“一夜白頭”!原配告第三者重婚案今日開(kāi)庭

      被閨蜜和丈夫雙重背叛,女子“一夜白頭”!原配告第三者重婚案今日開(kāi)庭

      環(huán)球網(wǎng)資訊
      2025-12-26 18:39:08
      “斬殺線”突然爆火:年薪45萬(wàn)的硅谷程序員,咋半年就睡大街了?

      “斬殺線”突然爆火:年薪45萬(wàn)的硅谷程序員,咋半年就睡大街了?

      大白聊IT
      2025-12-26 10:15:23
      賈磊:高詩(shī)巖防守CBA第一,貼身緊逼,只讓徐杰得到22分5板8助

      賈磊:高詩(shī)巖防守CBA第一,貼身緊逼,只讓徐杰得到22分5板8助

      體育哲人
      2025-12-27 00:01:22
      喜提獎(jiǎng)金+汽車!張本智和對(duì)著100名日本人發(fā)誓:世乒賽還要拿冠軍

      喜提獎(jiǎng)金+汽車!張本智和對(duì)著100名日本人發(fā)誓:世乒賽還要拿冠軍

      風(fēng)過(guò)鄉(xiāng)
      2025-12-26 21:38:03
      脊背發(fā)涼!杭州一小區(qū)凌晨遭蒙面男掃樓式撬門

      脊背發(fā)涼!杭州一小區(qū)凌晨遭蒙面男掃樓式撬門

      東方豪俠
      2025-12-27 07:57:23
      徐湖平家掛兩幅“湖平如鏡”:一個(gè)是陳立夫?qū)懙模粋€(gè)是范增寫的

      徐湖平家掛兩幅“湖平如鏡”:一個(gè)是陳立夫?qū)懙模粋€(gè)是范增寫的

      漢史趣聞
      2025-12-25 10:41:03
      中國(guó)駐墨西哥使館:奉勸納瓦羅之流認(rèn)真反思錯(cuò)誤,停止自欺欺人的表演

      中國(guó)駐墨西哥使館:奉勸納瓦羅之流認(rèn)真反思錯(cuò)誤,停止自欺欺人的表演

      環(huán)球網(wǎng)資訊
      2025-12-27 06:43:19
      哭窮炫富,“知三當(dāng)三”,裝了10年的吉克雋逸,還是“自食惡果”

      哭窮炫富,“知三當(dāng)三”,裝了10年的吉克雋逸,還是“自食惡果”

      顧史
      2025-12-12 14:59:24
      A股公司,緊急報(bào)警:6000萬(wàn)元買基金,9個(gè)月巨虧81%

      A股公司,緊急報(bào)警:6000萬(wàn)元買基金,9個(gè)月巨虧81%

      每日經(jīng)濟(jì)新聞
      2025-12-27 00:54:07
      廣東宏遠(yuǎn)今日早報(bào)!徐杰最新傷情,朱芳雨深夜發(fā)聲,挖出最大水貨

      廣東宏遠(yuǎn)今日早報(bào)!徐杰最新傷情,朱芳雨深夜發(fā)聲,挖出最大水貨

      多特體育說(shuō)
      2025-12-27 07:40:03
      1962年雷鋒因公殉職,41年后調(diào)查人員揭露真相,令人淚目!

      1962年雷鋒因公殉職,41年后調(diào)查人員揭露真相,令人淚目!

      抽象派大師
      2025-12-22 01:46:01
      楊瀚森又遭雪藏,轉(zhuǎn)機(jī)將會(huì)是交易截止日?

      楊瀚森又遭雪藏,轉(zhuǎn)機(jī)將會(huì)是交易截止日?

      五星體育
      2025-12-27 16:49:15
      三連勝!大洛9記三分救快船?哈登+倫納德無(wú)奈:泰倫盧“臥底”?

      三連勝!大洛9記三分救快船?哈登+倫納德無(wú)奈:泰倫盧“臥底”?

      海棠侃球
      2025-12-27 14:36:46
      柬方:柬泰簽署協(xié)議,同意停火時(shí)間從當(dāng)?shù)貢r(shí)間27日中午12時(shí)開(kāi)始

      柬方:柬泰簽署協(xié)議,同意停火時(shí)間從當(dāng)?shù)貢r(shí)間27日中午12時(shí)開(kāi)始

      界面新聞
      2025-12-27 11:55:53
      烏軍收復(fù)波城180平方公里,澤連斯基將赴美與川普進(jìn)行高風(fēng)險(xiǎn)博弈

      烏軍收復(fù)波城180平方公里,澤連斯基將赴美與川普進(jìn)行高風(fēng)險(xiǎn)博弈

      史政先鋒
      2025-12-26 19:49:56
      緊急!多品牌洗發(fā)水暗含致癌物,趕緊自查你家洗漱臺(tái)有沒(méi)有!

      緊急!多品牌洗發(fā)水暗含致癌物,趕緊自查你家洗漱臺(tái)有沒(méi)有!

      今朝牛馬
      2025-12-26 17:16:28
      2025-12-27 17:12:49
      AI全球總部
      AI全球總部
      全球最新、最酷AI解決方案
      1099文章數(shù) 715關(guān)注度
      往期回顧 全部

      科技要聞

      小米也漲價(jià)了!業(yè)界稱終端再不漲明年必虧

      頭條要聞

      男子戒毒后隨領(lǐng)導(dǎo)出差被警察帶走驗(yàn)?zāi)?回家后工作沒(méi)了

      頭條要聞

      男子戒毒后隨領(lǐng)導(dǎo)出差被警察帶走驗(yàn)?zāi)?回家后工作沒(méi)了

      體育要聞

      NBA教練圈的布朗尼,花了22年證明自己

      娛樂(lè)要聞

      張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

      財(cái)經(jīng)要聞

      注意,開(kāi)始拉物價(jià)了!

      汽車要聞

      好音響比大屏更重要?車企開(kāi)始“聽(tīng)”用戶的

      態(tài)度原創(chuàng)

      藝術(shù)
      家居
      本地
      時(shí)尚
      公開(kāi)課

      藝術(shù)要聞

      砸50億!廣東驚現(xiàn)“全球最大爛尾醫(yī)院”,連窗框都沒(méi)裝完

      家居要聞

      格調(diào)時(shí)尚 智慧品質(zhì)居所

      本地新聞

      云游安徽|踏訪池州,讀懂山水間的萬(wàn)年史書

      從0度穿到20度,這件衣服才是今年冬天的“頂流”!

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚州精品成人| 精品国产av 无码一区二区三区| 久热re这里精品视频在线6| 日本精品一区二区三区四区| 中文字幕午夜福利片午夜福利片97| 国内精品伊人久久久久av| 亚洲天堂在线播放| 拉萨市| 久久天天躁狠狠躁夜夜不卡公司 | 国产亚洲色婷婷久久99精品| 农村乱人伦一区二区| 91色| 欧美精品在线视频| 美女网站免费| 阿坝县| 无码免费中文字幕视频| 人成午夜免费视频在线观看| 美女视频黄频大全免费| 少妇宾馆粉嫩10p| 久久九精品视频| 人妻熟妇久久久久久精| 免费人成自慰网站| 全国最大成人网| 亚洲精品一区久久久久一品av | 韩国午夜福利片在线观看| 国产女人18毛片水真多18| 97人妻白浆| 日本爽爽爽爽爽爽在线观看免| 99久久久无码国产精品秋霞网| 亚洲日本va午夜在线影院| 天堂中文字幕| 汝南县| 极品少妇的粉嫩小泬视频| 久久久久无码精品国产| 他掀开裙子把舌头伸进去添视频| 超碰人人澡| 欧美色资源站| 欧美激情精品久久久久久| 新妺妺窝人体色7777婷婷| jizz日| 玖草视频在线观看|