ECRISC3000ISC3100监控产品创建RAID5后异常断电后状态不可用问题处理.docVIP

  • 7
  • 0
  • 约1.89千字
  • 约 4页
  • 2018-06-25 发布于河南
  • 举报

ECRISC3000ISC3100监控产品创建RAID5后异常断电后状态不可用问题处理.doc

ECRISC3000ISC3100监控产品创建RAID5后异常断电后状态不可用问题处理

ECR ISC3000 ISC3100监控产品RAID5创建后 异常断电导致阵列状态不可用问题处理 1 现象描述: 在iVS方案中会涉及到ECR、ISC3000、ISC3100等监控产品使用RAID5阵列,阵列创建后如果客户经常性的异常断电容易导致raid状态变为不可用状态: 如上图所示: 1) 阵列状态无法使用 2)所有硬盘都是在线且被占用状态 2 现象分析: 1 iVS解决方案中的ISC3000,ISC3100,ECR系列中引入了RAID技术,但RAID本身比较娇贵所以在操作上和设备维护上上一定要严格按照规范来实施。 该问题出现主要是由于客户现场异常断电所致,通过导出设备的日志信息(http://ISC3000-IP/debug.htm后直接导出全部快照),导出全部快照后(DebugLog.tar.gz)可以查看一线日志信息文件里的内容来进一步判断故障现象。日志文件导出正常的话,会有如下的文件: 2把日志文件解压之后,通过写字板或者UltraEdit编辑工具打开Debuglog_disk.log文件进一步证实故障现象。 3 问题根本原因: 1) .cat /proc/mdstat是OS的proc文件系统调用,其中调用了内核中md_seq_show函数,该函数中判断mddev-pers项为空,则状态为inactive,mddev-pers为阵列的personality结构体,主要是表示该阵列的raid类型的结构体,当该阵列的结构体为空时,内核认为该阵列为inactive. 3 问题解决方法: 首先使用mount命令查看当前设备的具体路径: 之后按照以下操作步骤开始恢复: 1). telnet登陆到设备上,在命令行界面上: 输入命令 #dmesg -s 16000 /var/log/dmesg0.txt 2).输入命令 #mv /sbin/mdadm /sbin/mdadm_bk 3).将我们的新的mdadm文件通过tftp导入到系统内: #cd /sbin/ # tftp -gl mdadm 32 # chmod +x mdadm 这里的蓝色部分IP地址根据当地的tftp server的IP地址来定。添加server的IP地址。 放进去以后,输入命令: # ls /sbin/mdadm -l -rwxr-xr-x 1 root root 455510 Sep 19 15:30 /sbin/mdadm 检查一下是否是这样的信息。是的话,表明mdadm对了 4.重新加载raid5阵列 # dmesg -c /dev/null # umount /dev/md0 # mdadm -S /dev/md0 # mdadm -Es -c /tmp/mdadm.conf /tmp/mdadm.conf # mdadm -A -s -P -c /tmp/mdadm.conf # mount -t ext3 -o data=writeback /dev/md0 /ErTopShare/ErArray0 # cat /proc/mdstat # dmesg -s 16000 /var/log/dmesg1.txt 这里md0因根据现场不可用的md具体数字来定,另外这里的/dev/md0 /ErTopShare/ErArray0也应根据现场mount命令的实际路径来定。 如果第二步失败的话,请停止所有录像计划,重新执行第二步。有问题及时跟我联系。 将这个过程中屏幕上输出的信息全部拷贝出来(注意是全部)。包括/var/log/目录下的两个dmesg0.txt和dmesg1.txt文件。 此时登陆web界面,看raid5是否已经恢复。 4 风险和维护建议 目前遇到此类问题发生,我们只有通过这种手动的方式来修复,上传 的mdadm一旦断电重新启动后设备后可能会再次导致问题状态需要不可用,这时需要重新操作来修复。问题正式解决需要研发新的版本F1118 RAID阵列本身非常娇贵,系统也比较脆弱。因此在开局和项目运行过程中,请一线和代理商给客户明确传达设备运行规范。 杭州华三通信技术有限公司 2008-10-9 内部资料,请勿扩散 第4页, 共4页

文档评论(0)

1亿VIP精品文档

相关文档