2021-05-12 11:00:58
如何排除伺服器中RAID 5故障
如何排除伺服器中RAID 5故障
由於技術的不斷進步,不同型號的伺服器出現RAID 5故障後,處理方法也不同。
現在大型應用程式的網路拓樸結構,一般都採用C/S結構或B/S結構,至少需要一臺裝有大型資料庫的伺服器安放於中心機房。基於對伺服器安全性與可靠性的考慮,通常會對伺服器的磁碟採用磁碟陣列RAID(Redundant Array of Inexpensive Disk)進行磁碟冗餘備份。其中RAID 5陣列級別為無獨立校驗磁碟的奇偶校驗磁碟陣列,採用資料分塊和獨立存取技術,能在同一磁碟上並行處理多個存取請求,同時允許陣列中的任何一個硬碟出現故障。
實際應用中,由於某些不可避免的客觀原因,可能會造成一些陣列故障。最常出現的狀況就是硬碟自行離線,聯機狀態顯示為DDD(Defunct Disk Drive,無效磁碟驅動器),硬碟出現物理故障或邏輯故障。如果是物理故障,只有進行硬碟更換;如果是邏輯故障,可以通過有針對性的技術修復,恢復硬碟的線上狀態,繼續保持其原始陣列中的硬碟資料條帶化分佈狀態,延續資料儲存體系的一致性。
但是,對HP的一些老伺服器(如HP LH6000)資料的恢復與新伺服器(如HP ProLian系列伺服器)的資料恢復是不同的。所以不同的伺服器對RAID 5故障的處理也是不同的。曾接觸過兩臺伺服器因意外斷電而造成的RAID 5陣列卡資料故障,由於採用了不同的策略而解決了問題。
故障修復
一臺是HP LH6000的伺服器,4塊18GB的硬碟做成RAID 5磁碟陣列,其陣列卡是NetRaid;另一臺是HP ProLian ML370伺服器,4塊146GB的硬碟做成RAID 5磁碟陣列,其陣列卡是Smart Array 642並帶有熱備份硬碟(Hot Spare)。兩者作業系統都為Window 2000,資料庫是Server 2000。
HP LH6000的故障如下: 一塊硬碟紅燈閃亮,機器還在正常執行,但沒有多久,系統就不能正常執行,這時才發現另一塊硬碟的紅燈也在閃亮。
解決辦法如下:
1.啟動伺服器,自檢至陣列時按Ctrl+M進入NetRaid管理程式。檢視陣列資訊,發現硬碟狀態為Failed,運用修改設定將一硬碟強行設定成OnLine。重新啟動伺服器,在進入系統前的硬體自檢時無效,啟動失敗。
2.啟動伺服器,自檢至陣列時按Ctrl+M進入NetRaid管理程式。選擇磁碟陣列,將原來OnLine掛起來的硬碟手工Fail掉,然後再把另一塊Failed的硬碟手工設定成OnLine,重新啟動伺服器就可以進入系統了。
3.檢視系統及資料庫都執行正常後,再進陣列設定工具把Failed的硬碟手工設定成Rebuild,100%完成重建後再重啟伺服器,所有的陣列及系統都恢復原狀了。
另一臺執行ERP系統的伺服器(HP ProLiant ML370),由4塊146GB熱插拔硬碟通過RAID卡(Smart array陣列卡)設定成一臺具有RAID 5級的磁碟陣列。其中一塊硬碟在執行過程中突然出現故障。伺服器RAID 5自動啟用熱備份硬碟(Hot Spare),對損壞硬碟進行邏輯替代。整個硬碟的資料存取任務仍然完整地執行在原來的讀寫程序式列中,應用程式和資料庫沒有發生影響。
通過HP自帶的ACU工具檢視硬碟狀態進行檢查,發現紅燈示警的硬碟處於離線狀態。如果HP ProLiant伺服器中的Raid 5有兩塊硬碟出現亮紅燈時,表明系統已經崩潰,資料庫也就不能存取,但系統不會自動關機。當第二塊硬碟亮紅燈後,用常規的手段是不能恢復資料的,只有付費找專業的第三方資料恢復公司恢復資料。
因此,對惠普老型號HP LH6000系列伺服器來說,陣列的設計方面與現在HP ProLiant系列伺服器的陣列有很多不同。就操作方法看,HP LH6000伺服器的陣列操作方法有很多可選項,包括陣列失敗後可以重新刪除陣列並重建等,初始化也是手工選擇的。但是HP ProLiant系列伺服器陣列的初始化是在設定陣列後自動在後臺執行的,所以ProLiant系列伺服器在陣列出錯後是不能重配陣列的。
HP LH6000伺服器會因其他意外的原因導致陣列中的磁碟出現掉線現象,可讓維護人員手工選擇用Online或Offline、Rebuild等來恢復資料。但是現在的HP ProLiant系列伺服器在陣列中不會再出現像老的伺服器那樣有磁碟掉線的現象,所以硬碟亮紅燈的時候,這塊硬碟基本上是損壞了需要更換。當然可以選擇熱插拔硬碟來重建(Rebuild),看硬碟還能不能再用一段時間。
做好技術後備
從以上兩個例子可以看出,同一品牌、不同系列的伺服器因其內含技術的不同,其Raid 5磁碟故障的排除也是不同的。但經過重建(Rebuild)資料後,資料被拯救了,從中可以得出以下經驗:
我們認為任何先進的技術手段都不是萬無一失的。如果要確保資料安全,就一定要做好備份工作,最好每天做一次資料庫的異地備份。至少備用一塊新硬碟。需要指出的是,加入陣列的硬碟必須大於或等於故障硬碟的容量。
如果條件允許,推薦“RAID 5+熱備盤」的陣列建立方案。這樣在資料丟失前,我們有兩次更換硬碟的機會。對於一般的應用,只用RAID 5即可,可以同時提供資料的存取效能、可靠性和最大的磁碟空間。
管理員必須經常觀察陣列的狀態,包括檢視磁碟陣列的黃色警告燈和管理軟體裡的驅動器狀態。出現故障,及時排除。無論是什麼級別的陣列,在排除故障前,都應做好資料備份。
相關文章
-
7+2強化供電!599元梅捷SY-狂龍H510M圖賞
除了廣為人知的Z590和B560之外,英特爾還發布了入門級的H510晶片組,也是上一代H410晶片組的升級版。 在相容性方面,H510晶片組與Z590晶片組和B560晶片組沒有什麼區別,都可以相容1
2021-05-10 19:00:28
-
支援5333高頻記憶體!技嘉小雕PRO B560M主機板圖賞
Intel第十一代酷睿已經上市,新架構帶來了巨大的IPC提升幅度,同時,Intel還開放了B560/H570主機板的記憶體超頻功能,這使得主流玩家也可以輕鬆享受高頻記憶體帶來的流暢遊戲體驗。
2021-05-09 16:00:04
-
24K純金!微星MEG Z590 ACE GOLD EDITION戰神至臻圖賞
顯示卡、散熱器、風扇都能玩RGB,機箱中,主機板幾乎是最不起眼的存在。 而近日,微星推出了一款亮眼的主機板,首次用上了24K純金設計,它就是MEG Z590 ACE戰神至臻,一起來瞧瞧。 MEG
2021-05-07 22:00:14