作為企業(yè)IT運(yùn)維的“老黃牛”,服務(wù)器的穩(wěn)定運(yùn)行直接關(guān)乎業(yè)務(wù)連續(xù)性。
上周我們就收到一臺(tái)同行送過來的華為鯤鵬920服務(wù)器,客戶描述為突發(fā)啟動(dòng)故障。
今天就把整個(gè)排查過程復(fù)盤分享,旨在拋磚引玉,建議收藏備用~
![]()
一、突發(fā)故障:核心服務(wù)器突然“罷工”
客戶發(fā)現(xiàn)部署的算力服務(wù)器無法連接,趕到機(jī)房后發(fā)現(xiàn)服務(wù)器開機(jī)屏幕停留在“嘗試從網(wǎng)卡引導(dǎo)”的提示界面,反復(fù)重啟后問題依舊。
二、初步排查:鎖定“啟動(dòng)設(shè)備識(shí)別”核心問題
收到同行送來的服務(wù)器后,我司技術(shù)人員進(jìn)行了簡(jiǎn)單的溝通和交流,然后上電,開始最基本的檢測(cè)。
開機(jī)后,自檢階段未出現(xiàn)陣列卡型號(hào)和自檢提示,說明陣列卡未完成基礎(chǔ)自檢;
然后屏幕提示“無引導(dǎo)設(shè)備”,然后開始反復(fù)嘗試從網(wǎng)卡引導(dǎo),當(dāng)然不可能引導(dǎo)成功。
這臺(tái)鯤鵬920服務(wù)器配置了獨(dú)立陣列卡,所有硬盤均連接至陣列卡,作為系統(tǒng)和數(shù)據(jù)存儲(chǔ)的載體。
于是,進(jìn)入BIOS,遺憾的是,陣列卡未被識(shí)別。
如果陣列卡無法正常工作,自然無法識(shí)別到由其管理的硬盤,進(jìn)而導(dǎo)致服務(wù)器找不到啟動(dòng)設(shè)備。
關(guān)閉服務(wù)器電源,打開機(jī)蓋,拆下陣列卡觀察,并未發(fā)現(xiàn)異常,于是擦拭金手指后,換了個(gè)PCIe插槽,但仍未被正確識(shí)別,排除插槽故障。
三、深入定位:陣列卡“隱身”是關(guān)鍵
在BIOS界面反復(fù)查找無果后,發(fā)現(xiàn)有一項(xiàng)叫做“有些驅(qū)動(dòng)程序不健康”,在里面找到了陣列卡。
![]()
嘗試修復(fù)操作,并重啟后,BIOS能正確識(shí)別到陣列卡型號(hào),也能識(shí)別到硬盤了。
![]()
但此時(shí)服務(wù)器有紅燈告警,系統(tǒng)無法引導(dǎo)。
登錄iBMC帶外管理,發(fā)現(xiàn)有陣列卡告警信息。
四、嘗試修復(fù):既然BIOS操作無效,那更換就是唯一出路
由于硬件尚在質(zhì)保期內(nèi),于是我司技術(shù)人員聯(lián)系了寶德售后,雖然是鯤鵬920服務(wù)器,但是經(jīng)查詢,售后服務(wù)由寶德負(fù)責(zé)。
工程師遠(yuǎn)程確認(rèn)故障后,以航空件的方式,發(fā)來了同型號(hào)的陣列卡。
更換過程很順利:關(guān)閉服務(wù)器電源后,取下故障陣列卡,將新陣列卡插入PCIe插槽并固定,重新連接硬盤數(shù)據(jù)線。
![]()
五、故障解決:更換陣列卡后恢復(fù)正常
更換陣列卡后,我們重新開機(jī),自檢階段順利顯示陣列卡型號(hào)和RAID陣列信息。進(jìn)入BIOS后,“存儲(chǔ)設(shè)備”欄成功識(shí)別到陣列卡,啟動(dòng)項(xiàng)中“陣列卡引導(dǎo)”也顯示“可用設(shè)備”。
將硬盤里面的陣列信息導(dǎo)入到新的陣列卡后,設(shè)置為陣列卡為首選啟動(dòng)項(xiàng),然后服務(wù)器順利進(jìn)入操作系系統(tǒng)。
此時(shí)聯(lián)系客戶,準(zhǔn)備進(jìn)入系統(tǒng)檢查數(shù)據(jù),結(jié)果被告知,root密碼忘記了,于是又為客戶重置了root密碼,這才得以進(jìn)入系統(tǒng),好在客戶還是幸運(yùn)的,經(jīng)查看,數(shù)據(jù)未丟失。
![]()
六、運(yùn)維反思:3點(diǎn)經(jīng)驗(yàn)避坑指南
這次故障排查雖然最終順利解決,但也給我們敲響了警鐘。結(jié)合此次經(jīng)歷,總結(jié)3點(diǎn)運(yùn)維經(jīng)驗(yàn):
這次故障排查雖順利解決,但也給客戶敲響了警鐘。結(jié)合經(jīng)歷總結(jié)3點(diǎn)核心運(yùn)維經(jīng)驗(yàn),發(fā)給同行及客戶:
核心備件必儲(chǔ)備:承載核心業(yè)務(wù)的服務(wù)器,陣列卡、電源模塊等關(guān)鍵硬件必須備足備件,避免因等待備件延長(zhǎng)宕機(jī)時(shí)間;
硬件巡檢不松懈:除軟件監(jiān)控外,每月用官方診斷工具做一次硬件深度巡檢,重點(diǎn)檢測(cè)陣列卡、硬盤的健康狀態(tài),提前發(fā)現(xiàn)老化隱患;
排查邏輯要清晰:遵循“先基礎(chǔ)后核心、先軟件后硬件”原則,逐步縮小范圍,避免盲目操作造成二次故障。
日常運(yùn)維重在備份:數(shù)據(jù)無價(jià),本次算是幸運(yùn),數(shù)據(jù)未丟失,但是如果還是不注重備份,遲早有一天會(huì)破防后悔。
互動(dòng)時(shí)間:你在運(yùn)維中遇到過哪些“詭異”的服務(wù)器故障?排查時(shí)踩過什么坑?歡迎在評(píng)論區(qū)分享,一起交流避坑技巧~
服務(wù)器運(yùn)維容不得半點(diǎn)馬虎,每一次故障都是一次經(jīng)驗(yàn)積累。如果大家有類似的排查經(jīng)歷,歡迎在評(píng)論區(qū)分享交流,一起提升運(yùn)維能力~
覺得這篇排查干貨有用的話,記得 點(diǎn)贊+在看+收藏,轉(zhuǎn)發(fā)給團(tuán)隊(duì)里的運(yùn)維伙伴,一起提升故障處理效率~
關(guān)注我們,后續(xù)還會(huì)分享更多服務(wù)器運(yùn)維、故障排查的實(shí)戰(zhàn)技巧!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.