企业IT运维可用性能力建设-技术+管理手段.docx

企业IT运维可用性能力建设-技术+管理手段.docx

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

企业IT运维可用性能力建设

(技术+管理手段)

?

?

【摘要】可用性是运维KPI或SLA中很重要的一个可量化指标,在基本的底线保障的基础之上,将可用性能力的建设提炼出来,以横向的角度进行建设,有利于集中力量,积累最佳实践,是一项投入产出比很高的工作。

一、可用性的思考

业务的不断演进,系统的数据量不断扩大,技术栈越来越复杂,系统模块越来越多,造成信息系统中断的事件的风险场景越来越多,中断事件的频率和种类持续增长,且有相当一部份事件会造成业务中断,可用性问题越来越严峻。一个严重的业务可用性问题通常是多个层面上的可用性保障均失效的结果,比如:架构的高可用能力,监控能力、自动化工具能力、应急能力等,所以说运维组织的事件管理能力特别的重要,应该本着“不浪费故障”的理念去深挖故障背后的问题,不断的完善每个环节的不足(当然,这里不提倡追责的方式分析故障)。可以用“海恩法则”来进一步解释可用性问题由量变向质变转变的过程:

海恩法则:每一起重大的飞行安全事故背后都会有29个事故征兆,每个征兆背后又有300个事故苗头,每个苗头背后还有1000个事故隐患。由此可见,对隐患、苗头、征兆的忽略,是导致意想不到的安全事故发生的罪魁祸首。——百度百科

海恩法则强调两点:一是事故的发生是量的积累的结果;二是人自身的素质和责任心。将法则运用到运维领域,我觉得可以从技术手段与管理手段进行可用性能力建设。其中技术手段主要是运维把控技术架构的高可用的标准化策略的生产环境准入门槛、运用数据分析及专家意见进行信息系统架构的持续优化、运维工具建设提高问题的预测或加快可用性的恢复;管理手段则主要从演练与应急方面分解。

二、可用性标准方法论

在梳理可用性能力建设前,我们先看看关于可用性的一些基本概念与方法论。在方法论的研究上,我暂时还没看到一个完全针对运维的信息系统可用性的建设方法论,所以暂以BCM(业务连续性管理),以及googlesrc中提到的可用性的理解。这些方法论有助于培养一个体系化的知识体系,串起运维可用性能力的知识碎片。

2.1可用性概念

可用性是运维组织最重要的KPI指标,在国标的可信性与服务质量电工术语中对它的解释是:在要求的外部资源得到保证的前提下,产品在规定的条件下和规定的时刻或时间区间内处于可执行规定功能状态的能力,它是产品可靠性、维修性和维修保障性的综合反映。——百度百科

业界通常会用N个9来体现可用性程度,计算方法是:?可用性=平均故障间隔时间MTBF/(平均修复时间MTTR+平均故障间隔时间MTBF)

用直观的数据展示如下:

在实际情况下可用性的计算会做一些局部调整:

由于系统7*24小时不停机是不太可能的情况,故通常会以名义可用性作用计划,即停业时间只考虑非计划性的情况。

由于组织资源有限,不同的维护对象的稳定性不一样,所以可用性的目标也不是一成不变,比如机房、核心网络相对稳定、且可用性问题将是全局性的,所以通常的目标是100%或6个9;重要交易系统直接面向客户,需要投入更多资源进行保障,可用性目标是5个9或4个9;一般的内部管理系统,可能是4个9或3个9。

在运维保障过程中,影响可用性的因素通常有性能问题、功能问题、设备问题、应急处理效率等,相关保障方式后续会提及。

讲完可用性的概念,我们再看看RPO与PTO的恢复能力标准,其中RPO(RecoveryPointObejective,恢复点目标)是指业务系统所允许的在灾难过程中的最大数据丢失量,用来衡量容灾系统的数据冗余备份能力,RTO(RecoveryTimeObjective,恢复时间目标)是指信息系统从灾难状态恢复到可运行状态所需的时间,用来衡量容灾系统的业务恢复能力。

以下是《信息安全技术信息系统灾难恢复规范》对灾备数据中心根据RPO与RTO两项指标分成了6个相应的等级:

在明确了灾备建设中灾难恢复能力等级目标之后,另一个重要问题是在具体建设中应该考虑哪些资源要素。下表是对灾备建设的七要素:

2.2业务连续性管理

站在业务角度看,信息系统的运维可用性能力建设,可以转化为业务连续性的管理,行业里的业务可用性管理比较标准的是BCM,以下是百度百科对BCM的定义:

业务连续性管理(BusinessContinuityManagement,简称BCM),是一项综合管理流程,它使企业认识到潜在的危机和相关影响,制订响应、业务和连续性的恢复计划,其总体目标是为了提高企业的风险防范能力,以有效地响应非计划的业务破坏并降低不良影响。——百度百科

以下从互联网下载的一张关于BCM的整体解决思路,从中可以看出业务连续性管理涉及到方方面面

从上图可以看出BCM的方法论是一个体系化的业务连续性管理,从灾难恢复,风险管理,应急管理等维度进行分解,其中多个行

文档评论(0)

136****6121 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档