文/黃海峰的通信生活
在當(dāng)今復(fù)雜且高速發(fā)展的行業(yè)環(huán)境中,運(yùn)維被視為ICT基礎(chǔ)設(shè)施保障系統(tǒng)持續(xù)運(yùn)轉(zhuǎn)和快速處理突發(fā)故障的基石。然而,傳統(tǒng)運(yùn)維模式在效率和精準(zhǔn)度方面已漸顯疲態(tài)。如何借助人工智能技術(shù)推動(dòng)運(yùn)維向智能化轉(zhuǎn)型,已成為行業(yè)亟待解決的關(guān)鍵問題。
華為全聯(lián)接大會(huì)2025 期間,在以“AI加持,助力行業(yè)智能運(yùn)維轉(zhuǎn)型”為主題的論壇上,來自產(chǎn)業(yè)界和華為的多位專家深入探討了這一問題。華為也在會(huì)上發(fā)布了智算運(yùn)維服務(wù)2.0、金融卓悅服務(wù)3.0+、政享服務(wù)2.0三大智能運(yùn)維解決方案,利用AI實(shí)現(xiàn)運(yùn)維的智能化、自動(dòng)化與高效化,為行業(yè)注入了新的活力。
![]()
三大驅(qū)動(dòng)力,讓智能運(yùn)維成必選項(xiàng)
當(dāng)下,運(yùn)維行業(yè)正處于多重變革交織的關(guān)鍵節(jié)點(diǎn),三大趨勢共同推動(dòng)智能運(yùn)維成為必然選擇。
其一,數(shù)據(jù)中心正邁向智能化時(shí)代。在數(shù)據(jù)中心層面,系統(tǒng)架構(gòu)與承載業(yè)務(wù)都迎來變革,通算智算一體化數(shù)據(jù)中心的趨勢不斷加快。
從計(jì)算機(jī)時(shí)代的機(jī)房,到互聯(lián)網(wǎng)時(shí)代的DC,再到大數(shù)據(jù)時(shí)代的云DC,如今進(jìn)入智能時(shí)代的智算數(shù)據(jù)中心,架構(gòu)從以CPU為中心轉(zhuǎn)向以xPU為中心,承載著AI訓(xùn)練和推理,算力密度更高且走向液冷。
不過,這也帶來運(yùn)維挑戰(zhàn),百萬器件、跨多層軟硬技術(shù)棧,讓管理復(fù)雜度大幅提升,同時(shí)還需推動(dòng)運(yùn)維流程從被動(dòng)響應(yīng)向主動(dòng)預(yù)測、智能診斷轉(zhuǎn)型。
其次,上云要求運(yùn)維全鏈路可觀測。業(yè)務(wù)上云浪潮下,行業(yè)云平臺(tái)加速普及。據(jù)Gartner預(yù)計(jì),到2027年超50%企業(yè)會(huì)應(yīng)用云化。
在傳統(tǒng)應(yīng)用云化后,企業(yè)運(yùn)維對象從百級(jí)躍升至萬級(jí),調(diào)用鏈跨云內(nèi)外、跨廠家,從3跳變?yōu)?0多級(jí)跳,故障點(diǎn)激增,定位時(shí)長從小時(shí)級(jí)延長至天級(jí),運(yùn)維協(xié)同難度大幅提升。這些變化對運(yùn)維“全鏈路可觀測”能力的需求極為迫切。
其三,AI時(shí)代大模型對運(yùn)維提出新挑戰(zhàn)。AI技術(shù)賦能下,領(lǐng)域模型在千行百業(yè)加速滲透,模型訓(xùn)練與推理保障面臨新挑戰(zhàn)。比如,推理場景覆蓋廣泛且需求指數(shù)級(jí)增長,有差異化KPI要求;預(yù)訓(xùn)練結(jié)合二次訓(xùn)練、微調(diào)成為行業(yè)訓(xùn)練主流,算力需求攀升。
然而,推理性能保障困難,運(yùn)維差異化要求多,性能與成本難評估,業(yè)務(wù)故障識(shí)別和定位耗時(shí)久,劣化故障也難以感知。這些都倒逼智能運(yùn)維持續(xù)升級(jí)。
三大解決方案:錨定趨勢,釋放行業(yè)價(jià)值
在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,各行業(yè)ICT運(yùn)維體系正經(jīng)歷著前所未有的變革。如何順應(yīng)趨勢,實(shí)現(xiàn)運(yùn)維智能化轉(zhuǎn)型?
在本次論壇上,華為發(fā)布的三大智能運(yùn)維解決方案,精準(zhǔn)錨定行業(yè)痛點(diǎn)與趨勢,為不同領(lǐng)域的運(yùn)維智能化轉(zhuǎn)型提供了可行路徑。
智算運(yùn)維服務(wù)2.0,筑牢算力底座的智能運(yùn)維標(biāo)桿
智算運(yùn)維服務(wù)2.0堪稱算力中心的“智能運(yùn)維中樞”。它基于AIOps與全棧智能技術(shù),構(gòu)建起從感知、診斷到修復(fù)的完整閉環(huán)能力,可實(shí)現(xiàn)分鐘級(jí)故障定位與自愈。
在基礎(chǔ)設(shè)施層面,該方案適配超節(jié)點(diǎn)等新一代硬件產(chǎn)品,豐富故障模型庫,提升自動(dòng)診斷準(zhǔn)確率,并增強(qiáng)了光模塊預(yù)測預(yù)防能力。
針對訓(xùn)練任務(wù)保障,它強(qiáng)化了對網(wǎng)絡(luò)和集合通信的可視化能力,能敏銳感知并快速解決訓(xùn)練性能下降問題。
面向推理業(yè)務(wù),它定義了專屬指標(biāo)體系,打造端到端觀測能力,滿足不同行業(yè)的差異化需求。這些能力共同保障 AI 訓(xùn)練任務(wù)可穩(wěn)定運(yùn)行超15天,推理可用性達(dá)99.9%。
在實(shí)踐中,該方案成效顯著。在智算數(shù)字孿生場景,其實(shí)現(xiàn)RoCE網(wǎng)絡(luò)與集合通信可視化,助力客戶多維度監(jiān)測;在隱患自動(dòng)識(shí)別場景,其通過超55個(gè)深度巡檢項(xiàng)與工具自動(dòng)分析,準(zhǔn)確率達(dá)85%;在故障自動(dòng)定位場景,其通過多維度分析、自感異常與自適采樣,將訓(xùn)練慢卡慢網(wǎng)絡(luò)診斷從天級(jí)縮短至分鐘級(jí)。
金融卓悅服務(wù)3.0+:護(hù)航金融系統(tǒng)的智能運(yùn)維典范
金融卓悅服務(wù)3.0+如同金融系統(tǒng)的“智能安全管家”,以云網(wǎng)關(guān)一體化運(yùn)維為基礎(chǔ),打造高效安全彈性的金融網(wǎng)絡(luò)新范式。基于多年實(shí)踐積累,并結(jié)合銀行分布式業(yè)務(wù)上云后的高可用運(yùn)維挑戰(zhàn),我們持續(xù)迭代服務(wù)能力,正式推出金融卓悅服務(wù)3.0+,從保障基礎(chǔ)設(shè)施穩(wěn)定到業(yè)務(wù)高可靠,實(shí)現(xiàn)運(yùn)維能力與業(yè)務(wù)價(jià)值的“雙躍升”。
相比于卓悅服務(wù)3.0方案,本次核心升級(jí)聚焦在兩大方面:
- 面向基礎(chǔ)設(shè)施場景運(yùn)維能力升級(jí):引入AI大模型技術(shù),結(jié)合客戶生產(chǎn)運(yùn)行狀態(tài),實(shí)現(xiàn)智能問答、隱患排查及應(yīng)急搶修等功能,顯著提升基礎(chǔ)設(shè)施運(yùn)維效率;
- 系統(tǒng)評估優(yōu)化:新增覆蓋數(shù)通、光網(wǎng)絡(luò),構(gòu)建三層六維評估體系,從網(wǎng)絡(luò)架構(gòu)、協(xié)議/路由、可靠性、性能容量、可維護(hù)性六個(gè)維度全面評估網(wǎng)絡(luò),提高客戶網(wǎng)絡(luò)韌性。
- 變更保障:新增變更智能評審助手,一鍵生成變更評審AI輔助報(bào)告,包括變更內(nèi)容概要,變更方案完整性與規(guī)范性,變更風(fēng)險(xiǎn)評估,變更相關(guān)歷史事件等,提升變更質(zhì)量,縮減故障率,提高變更評審效率40%。
- 面向海外虛擬化替換場景,新增DCS統(tǒng)一運(yùn)維能力,有效支持海外銀行系統(tǒng)遷移后的業(yè)務(wù)穩(wěn)定;
- 面向分布式新核心場景運(yùn)維方案升級(jí):基于華為自研的MindOPS運(yùn)維平臺(tái),結(jié)合金融行業(yè)特有場景,新增了業(yè)務(wù)感知運(yùn)維方案,實(shí)現(xiàn)從業(yè)務(wù)到基礎(chǔ)設(shè)施的全鏈路可觀測、快速診斷與智能預(yù)案,助力達(dá)成“1-5-10”運(yùn)維目標(biāo),保障金融核心業(yè)務(wù)穩(wěn)定運(yùn)行。
觀測中心,新增面向應(yīng)用的全棧拓?fù)渥詣?dòng)還原與告警關(guān)聯(lián)分析算法,支持業(yè)務(wù)指標(biāo)的敏捷編排與快速上線,提高問題發(fā)現(xiàn)的效率。新增異常業(yè)務(wù)交易的跨域檢索,快速鎖定異常服務(wù)實(shí)例以及對其關(guān)聯(lián)對象進(jìn)行指標(biāo)、告警與日志的全棧觀測,為故障快速定界提供必要依據(jù)。
應(yīng)急中心,新增面向應(yīng)用的故障事件根因分析與應(yīng)急預(yù)案智能推薦功能,結(jié)合專家經(jīng)驗(yàn)與故障樹、知識(shí)庫對故障事件的全流程分析,靈活編排預(yù)案應(yīng)急卡片,實(shí)現(xiàn)智能分析故障根因并推薦應(yīng)急預(yù)案。有效提高故障分析與定界效率。
政享服務(wù)2.0:賦能智慧城市的智能運(yùn)維樣板
政享服務(wù)2.0 扮演著政務(wù)業(yè)務(wù)平臺(tái)“運(yùn)維指揮大腦”的角色,依托原廠支持、感知運(yùn)維與價(jià)值激發(fā),實(shí)現(xiàn)“一網(wǎng)統(tǒng)管、多云協(xié)同”。
相較于1.0版本,2.0增強(qiáng)了政務(wù)業(yè)務(wù)異常感知能力,引入AI智能化技術(shù),為業(yè)務(wù)場景提供輔助運(yùn)營支持,實(shí)現(xiàn)從監(jiān)控到資源效率的全面提升,有效提高資源利用率。
在省市級(jí)聯(lián)動(dòng)場景中,政享服務(wù)2.0 借助知識(shí)工單數(shù)據(jù)等智能化手段,增強(qiáng)復(fù)雜環(huán)境適應(yīng)性,推動(dòng)分散運(yùn)維體系向統(tǒng)一運(yùn)維體系轉(zhuǎn)變。
從價(jià)值體現(xiàn)來看,在場景升級(jí)方面,政享服務(wù)2.0 助力從監(jiān)控排障向資源效率與運(yùn)維一體化轉(zhuǎn)變,借助碎片分析算法和資源熱點(diǎn)視圖,使平均資源可用率提升10%。
在能力升維方面,政享服務(wù)2.0 推動(dòng)從分散運(yùn)維到協(xié)同統(tǒng)一,實(shí)現(xiàn)多級(jí)拓?fù)渥詣?dòng)還原,支持超12個(gè)協(xié)議,達(dá)成全省統(tǒng)一大運(yùn)維,實(shí)現(xiàn)工單協(xié)同與知識(shí)共享。
筆者觀察:三大智能運(yùn)維方案重塑行業(yè)運(yùn)維格局
華為的這三大智能運(yùn)維解決方案,指明了運(yùn)維行業(yè)發(fā)展的新方向。它們不僅解決了當(dāng)前運(yùn)維工作面臨的效率、安全和協(xié)同等挑戰(zhàn),還為未來技術(shù)演進(jìn)奠定了基礎(chǔ)。
本次論壇讓筆者感受到,智能運(yùn)維不再是簡單的技術(shù)升級(jí),而是企業(yè)數(shù)字化轉(zhuǎn)型的核心競爭力。華為將繼續(xù)以AI為核心驅(qū)動(dòng)力,為各行各業(yè)提供更智能、更高效、更安全的運(yùn)維解決方案。
隨著生成式 AI 的快速發(fā)展,運(yùn)維將更加智能化、自動(dòng)化和預(yù)測化。那些能夠抓住這一趨勢的企業(yè),將在數(shù)字化轉(zhuǎn)型中占據(jù)有利位置。
筆者認(rèn)為,華為的智能運(yùn)維方案不僅是技術(shù)創(chuàng)新的體現(xiàn),更是行業(yè)變革的催化劑。這三大智能運(yùn)維解決方案,正在推動(dòng)運(yùn)維從后臺(tái)支持功能,轉(zhuǎn)變?yōu)槠髽I(yè)核心競爭力的重要組成部分,為數(shù)字經(jīng)濟(jì)的穩(wěn)健運(yùn)行提供堅(jiān)實(shí)保障。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.