上门维修吧 关注:763贴子:1,779
  • 1回复贴,共1

IBM服务器阵列维修RAID5坏2个盘系统恢复过程

只看楼主收藏回复

服务器信息和故障现象先列一下
服务器型号:IBM SYSTEM X3650 M3 ERP服务器
阵列卡型号:ServRAID M5015
本次案例RAID信息和硬盘数量:4块500G SATA 2.5寸硬盘配的RAID5
报修客户:东莞市xxx数码科技有限公司
故障现象还原:该服务器为客户公司ERP服务器,客户端用户反应说服务器登陆有异常,所以IT管理员到机房查看,看的的现象为:屏幕蓝屏死机,服务器诊断面板警告灯亮黄,4个硬盘中有2个硬盘亮黄灯。分别是2号3号硬盘。如图:
冠峰工程师第一时间驱车赶到客户现场,首先是关机,通过笔记本直连到服务器IMM管理口进行日志的勘查。分析这2个硬盘故障的时间线。(IMM日志现场没有拍照)。发现这2个盘几乎是同一时间故障掉线的 相差几秒钟,时间点问题工程师已经明朗。
接下来是开机服务器CTRL-H或F1进到Webbios界面,如图:

确认后面2个盘failed,整个RAID5状态为offline。此时系统和数据都是处于无法正常启动和读取的。
经过工程师现场严谨的日志分析,大概判定本次蓝屏的原因是因为有一个盘出现了物理坏条块。可能系统数据刚好读取到这个坏块直接导致系统死机蓝屏,瞬间蓝屏死机导致RAID5出现故障。
这大概就是因为一个坏条块引起的RAID5灾难。好在现场工程师经验丰富且严谨。最后通过跟客户沟通2种处理方案,
第一:风险性较大,工程师现场RAID恢复。
第二:相对安全,硬盘由工程师带回做数据恢复。
经过日志显示和最终沟通客户选择了第一个方案。案子的最后当然是完美的恢复了RAID和Windows Server 2003系统以及所有的数据拉。如图:


IP属地:广东1楼2021-11-28 17:49回复
    有完整解决方案图吗?


    IP属地:江苏来自Android客户端2楼2023-09-13 21:35
    回复