因电力故障数据中心虚拟化服务器停机导致信息系统崩溃的灾难恢复.docVIP

因电力故障数据中心虚拟化服务器停机导致信息系统崩溃的灾难恢复.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
因电力故障数据中心虚拟化服务器停机导致信息系统崩溃的灾难恢复

因电力故障数据中心虚拟化服务器停机导致信息系统崩溃的灾难恢复 2015年07月19日 单位名称:XXXXXXXXXXXXXXX 部 门: XXXXXXXXXXXX 报 告 人: XXXXXX 时 间:2015年 07月 22日 以《XXXXXXXXXXXXXXXXXX信息安全工作总体方针和安全策略》 为依据,根据《5.10信息系统应急处理预案》为指导方针,完成此次XXX单位数据中心灾难恢复工作。 一、事故(故障)前运行方式及业务连续性情况 (一)运行环境及功能 中心机房位于XXXXXXXXXXXXXXXXXX(地点),负责XXX单位所有信息化业务及网络运行。2013年6月开始,中心机房逐步向云计算数据中心转型。于14年10月完全建成以虚拟化云计算为基础架构的智慧数据中心(下称数据中心),内配有UPS,防雷设备,核心交换机、应用服务器、数据存储服务器、带时控的空调设备等;数据中心外有防雷井,电力专供线路,能有效防止直接由雷击造成设备损坏,但不能完全消除电压不稳定造成的数据丢失故障。消防、安保门禁、环境(温、湿度报警等)、供电系统探测、服务器监控等方面都没有相应的设备进行监测,日常运维中也只是靠人力巡查,可靠性不高。在正常供电及普通天气环境情况下保障XXX单位数字化应用及其它相关的信息化业务的连续性。 (二)现数据中心运行情况 数据中心除最新的IBM刀片服务器外,其它90%的服务器已过保修期,使用时间多为5年以上,全面进入硬件的不稳定周期。首先,为XXX单位信息化业务提供连续性服务的服务器为3台DELL R710及IBM刀片服务器,其中,DELL服务器均为09年12月购置,10年启用,至今已达5年;硬件有不同程度的老化现象,会产生一些不知名的故障。其次,提供数据存储的设备为两台网络存储,分别为EMC VNX3150,H3C 1540S,其中H3C存储为10年启用,至今已达5年,然而硬盘类存储配件的在所有硬件中使用期间最短,使用时间过长容易造成数据丢失现象,且现储存容量无法满足XXX单位信息化数据的业务增长速度,全为满载运行,2014年初,该存储设备已更换过3块硬。再有,尤其我校电力供应不稳定,经常无故停电,导致数据中心内所有设备非正常关闭,容易造成系统崩溃及数据丢失,难以保障系统业务的连续性。 二、事故(故障)现象 2015年7月18日晚上10:30分左右,收到服务器探测信号,短信通知,数据中心内有多台云服务器宕机,立刻作出判断,认为是XXX单位停电,马上通知主管领导及运维公司工程师,让工程师回XXX单位确认情况。当天晚上23时左右,运维工程师到达现场,确认为电力系统停止供电,数据中心所有设备非正常关闭,全部停止运行,所有信息化系统无法提供服务。几分钟后,XXX单位突然恢复供电,数据中心内所有设备自主启动,运维工程师紧急处理,按顺序恢复服务器,直到所有服务器及存储设备全部正常启动后才离开现场。 00:30分左右,XXX单位物业公司来电通知,由于3号楼供电线路故障,整栋楼电力系统中断运行,无法为数据中心提供电力保障。7月19日零时至4:30期间,物业公司抢修供电系统,电力系统时通时断,通过与物业公司电力工程师了解,期间有3次恢复通电与停电过程,最后在4:30分左右确立为线路故障,无法马上恢复。 在上述3次供电通断过程中,数据中心内服务器及存储设备在运维工程师离开现场后,经历了3次非正常关闭系统,造成无法预测硬件、系统文件及数据文件是否有损坏。全部信息化系统(包括信息门户及税收系统)停止运行,无法支撑迎新工作。 三、事故处置经过 (一)参与人员 组长: XXXXX 副组长:XXXXX、XXXXX、 实施人员:XXXXXX、XXXXXXX 、XXXXXX (二)工作职责 项目名称 工作内容 重要程度 人员 电力系统恢复 市电供应、单位内部电力线路恢复、数据中心内UPS设备及电池检查、UPS输出到数据中心所有机柜电路、各设备供电连接检查 非常重要 XXXXXXXX 环境温度设备恢复 数据中心内空调设备的供电与恢复运行 重要 XXXXXXXX 网络设备配置、物理链路检查 1、核心交换机配置检查; 2、各接入光纤、连接到信息门户场地(1-201、1-301、图书馆、招就办办公室)的配线间链路检查; 3、与各服务器物理连接检查。 非常重要 XXXXXXXX 物理服务器、存储服务器硬件检查 1、物理服务器硬件检查:CPU、内存、本地硬盘、电口网卡、光口网卡、阵列卡; 2、存储服务器硬件检查:CPU、内存、电口网卡、阵列卡、存储硬盘 非常重要 XXXXXXXX 存储设备(数据)检查 1、两台存储设备系统检查 2、系统、应用、数据库数据检查 非常重要 XXXXXXXX 各服务器

文档评论(0)

骨干 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档