作為企業IT運維的“老黃牛”,服務器的穩定運行直接關乎業務連續性。
上周我們就收到一臺同行送過來的華為鯤鵬920服務器,客戶描述為突發啟動故障。
今天就把整個排查過程復盤分享,旨在拋磚引玉,建議收藏備用~
![]()
一、突發故障:核心服務器突然“罷工”
客戶發現部署的算力服務器無法連接,趕到機房后發現服務器開機屏幕停留在“嘗試從網卡引導”的提示界面,反復重啟后問題依舊。
二、初步排查:鎖定“啟動設備識別”核心問題
收到同行送來的服務器后,我司技術人員進行了簡單的溝通和交流,然后上電,開始最基本的檢測。
開機后,自檢階段未出現陣列卡型號和自檢提示,說明陣列卡未完成基礎自檢;
然后屏幕提示“無引導設備”,然后開始反復嘗試從網卡引導,當然不可能引導成功。
這臺鯤鵬920服務器配置了獨立陣列卡,所有硬盤均連接至陣列卡,作為系統和數據存儲的載體。
于是,進入BIOS,遺憾的是,陣列卡未被識別。
如果陣列卡無法正常工作,自然無法識別到由其管理的硬盤,進而導致服務器找不到啟動設備。
關閉服務器電源,打開機蓋,拆下陣列卡觀察,并未發現異常,于是擦拭金手指后,換了個PCIe插槽,但仍未被正確識別,排除插槽故障。
三、深入定位:陣列卡“隱身”是關鍵
在BIOS界面反復查找無果后,發現有一項叫做“有些驅動程序不健康”,在里面找到了陣列卡。
![]()
嘗試修復操作,并重啟后,BIOS能正確識別到陣列卡型號,也能識別到硬盤了。
![]()
但此時服務器有紅燈告警,系統無法引導。
登錄iBMC帶外管理,發現有陣列卡告警信息。
四、嘗試修復:既然BIOS操作無效,那更換就是唯一出路
由于硬件尚在質保期內,于是我司技術人員聯系了寶德售后,雖然是鯤鵬920服務器,但是經查詢,售后服務由寶德負責。
工程師遠程確認故障后,以航空件的方式,發來了同型號的陣列卡。
更換過程很順利:關閉服務器電源后,取下故障陣列卡,將新陣列卡插入PCIe插槽并固定,重新連接硬盤數據線。
![]()
五、故障解決:更換陣列卡后恢復正常
更換陣列卡后,我們重新開機,自檢階段順利顯示陣列卡型號和RAID陣列信息。進入BIOS后,“存儲設備”欄成功識別到陣列卡,啟動項中“陣列卡引導”也顯示“可用設備”。
將硬盤里面的陣列信息導入到新的陣列卡后,設置為陣列卡為首選啟動項,然后服務器順利進入操作系系統。
此時聯系客戶,準備進入系統檢查數據,結果被告知,root密碼忘記了,于是又為客戶重置了root密碼,這才得以進入系統,好在客戶還是幸運的,經查看,數據未丟失。
![]()
六、運維反思:3點經驗避坑指南
這次故障排查雖然最終順利解決,但也給我們敲響了警鐘。結合此次經歷,總結3點運維經驗:
這次故障排查雖順利解決,但也給客戶敲響了警鐘。結合經歷總結3點核心運維經驗,發給同行及客戶:
核心備件必儲備:承載核心業務的服務器,陣列卡、電源模塊等關鍵硬件必須備足備件,避免因等待備件延長宕機時間;
硬件巡檢不松懈:除軟件監控外,每月用官方診斷工具做一次硬件深度巡檢,重點檢測陣列卡、硬盤的健康狀態,提前發現老化隱患;
排查邏輯要清晰:遵循“先基礎后核心、先軟件后硬件”原則,逐步縮小范圍,避免盲目操作造成二次故障。
日常運維重在備份:數據無價,本次算是幸運,數據未丟失,但是如果還是不注重備份,遲早有一天會破防后悔。
互動時間:你在運維中遇到過哪些“詭異”的服務器故障?排查時踩過什么坑?歡迎在評論區分享,一起交流避坑技巧~
服務器運維容不得半點馬虎,每一次故障都是一次經驗積累。如果大家有類似的排查經歷,歡迎在評論區分享交流,一起提升運維能力~
覺得這篇排查干貨有用的話,記得 點贊+在看+收藏,轉發給團隊里的運維伙伴,一起提升故障處理效率~
關注我們,后續還會分享更多服務器運維、故障排查的實戰技巧!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.