数据中心基础设施运维风险管理技术.docxVIP

数据中心基础设施运维风险管理技术.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

瞄中心基础设施运维风险管理技术

毛文杰【摘要】本文对数据中心故障高发的基础设施运维进行分析总结,引入风险管理相关理论与方法,通过对基础设施进行风险识别、风险评估与风险应对,持续循环提高运维质量与技术,不断排除故障安全隐患,以降低事故发生的概率.

【期刊名称】《电信工程技术与标准化》【年(卷),期】2017(030)006【总页数】5页(P67-71)【关键词】数据中心;风险识别;风险评估;风险应对;运营风险库【作者】毛文杰【作者单位】中国联合网络通信有限公司上海市分公司,上海200050【正文语种】中文【中图分类】TN86数据中心由于客户很多来自金融、政府、BAT等行业,其对数据中心安全可靠性要求非常高,这就对运维工作提出了更高的要求。本文引入项目管理(PM)中风险管理相关理论与技术工具,加入到日常实际运维工作中以提高数据中心风险识别能力,提前〃排雷”规避风险,降低故障发生的概率,提高风险应对能力。同时引入质量控制(QC)中PDCA相关技术方法,以确保运维质量的持续改进与高效可靠。

数据中心基础涉及供配电、空调、消防、安防、防雷接地、弱电监控等子系统,各系统之间相互关联、相互影响,对于这样一个复杂系统的运维管理,是一个多目标优化的决策过程,只有确保各系统整体最优,才能使得数据中心实现高可靠性。目前对于数据中心基础设施运维管理正在引入风险管理相关理论与技术工具进行定性分析,主要包括:根据已经制定完成的基础设施高危设备巡检清单与相关运维工具对各机房按季度开张一次类似“体检”的巡检,将现场采集来的设备运行数据及故障记录进行容量管理等分析研究,以确定哪些设备存在〃生病”的征兆,即使联系设备厂家进行更换与保养;同时将现场隐患排查出来的风险按其严重性进行优先级分类,形成风险登记册,制定整改方案与计划及时进行闭环处理,以提高通信网络的安全可靠性。

根据已制定数据中心基础设施健康检查清单,确定运维关键指标,对选定机房进行全面体检。目前数据中心基础设施风险形成原因如图1所示。

2.1基础设施风险管理定义

根据高危设备巡检清单与设备安全运行关键性指标,采用热成像仪、万用表、接地电阻测试仪等仪器仪表,对数据中心基础设施(风、火、水、电)的运行情况:进行容量、温升、设备保养等方面数据进行采集与分析,并结合维护经验与工程实践,对数据中心高危设备进行风险识别与隐患排查,通过对高危设备系统性“体检”及指标分析,以提高数据中心的〃免疫力”,降低事故发生的概率。

2.2开展数据中心基础设施风险管理意义

量化运维指标,提升巡检深度,提高设备安全运行可靠性;及时发现安全隐患,降低故障发生概率;提高竣工验收成效,减少前期工程的缺陷对后期运维安全的影响;加强外包运维团队的监督与管理,提高外包团队的运维能力与维护力度;形成数据中心运维规范标准的统一与模式化,为客户提供标准化运维服务,提高客户满意度;利用统一的巡检清单与运维指标,提升运维水平与部署能力。

2.3数据中心基础设施风险管理方法

数据中心基础设施风险识别方法:高危设备巡检清单;数据中心运维指标;数据中心相关规范与标准;热成像对设备及线缆进行温升检测;万用表进行电源质量测试。数据中心基础设施风险评估方法:风险分类:供配电、空调、安防、消防等;风险轻重缓急;制定风险登记册;风险形成原因及总结;制定风险应对方案及进度计划。数据中心基础设施风险应对方法:风险规避:尽早闭环处理;风险预防:应急预案或应急演练;风险转移:设备厂家或合作方承诺。

综上所述,数据中心基础设施风险管理方法,可以按图2流程图所示实施。

数据中心基础设施风险识别如表1所示。

根据海恩法则:任何不安全事故都是可以预防的。一件重大事故发生后,我们在处理事故本身的同时,还要及时对同类问题的〃事故征兆与事故苗头”进行排查处理,以此防止类似问题的重复发生,及时解决再次发生重大事故的隐患,把问题解决在萌芽状态。所以在数据中心运维工作中开展风险管理可以有效降低事故发生的概率与影响面,积累运维经验,提高故障应对的能力。

通过应用上述风险管理方法,对数据中心基础设施进行风险管理,形成相关基础设施运营风险库,其主要问题如下。

(1) 前期施工遗留问题:市电引入不到位;水系统不具备连续制冷及在线检修能力;走线架安装位置挡住空调出风口;设备接地线未布放;设备及线缆未做标签;管道存在漏水、漏油现象,密封性差;冷却水与冷冻水管道及阀门接反。

(2) 设计考虑不周全:配电柜开关容量配置过小;空调配置数量不足;铜排及电缆过细,载流量无法满足应急要求;水系统不具有在线检修能力;电缆走线不合理;空调设备布置不合理。

(3) 外包团队运维力度不够:UPS、开关电源、发电机及电池表面及其风扇积灰

文档评论(0)

suijiazhuang1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档