山东移动IT应急容灾体系建设.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
山东移动IT应急容灾体系建设 建设IT应急(容灾)系统似乎是一件不讨好的事,花费很多钱只是为了预防“万一”。“万一”不出现,大量的投入看起来就浪费了,但是又不得不预防“万一”。最坏的情况是,尽管花了不少钱,但真正出现“万一”的时候,应急系统却没有发挥作用。 “三多一小”的应急体系 山东移动的BOSS应急体系建设,概括起来就是“三多一小”,即多级冗余,数据为先;多级预案,逐步升级;多级联动,重点保障。 多级冗余,数据为先。要做到多级冗余,一是主机和磁盘阵列的冗余配置,主机的电源、内存、磁盘、光纤卡、网卡等都是冗余的,冗余的网卡、光纤卡要确保连接在不同的交换机上。二是机房、空调、电源的冗余,电源要配独立的双UPS和双电源线接入。三是物理传输路由的冗余,冗余光纤传输要来自不同的物理路由。四是数据中心的冗余,三个中心互为灾备,任何一个瘫痪,都可以由另外两个数据中心接管。 多级预案,逐步升级。一级为业务应急预案,在业务本地运行模式下,系统出现故障时启动,以实现对业务的影响最小或者没有影响。通过业务部署、业务冗余处理模块等多种方式实现。二级为本地接管预案,在单点故障或设备主动维护时,BOSS各个业务系统均实现本地HA(高可用性)接管,关键系统如营业、计费、漫游、接口都实现了自动接管。三级为容灾切换预案,山东移动建设了负荷分担、互为备份的三中心容灾体系,数据库层采用1对2的架构,采用“存储底层同步复制+定时快照复制”技术,防止数据的物理或逻辑错误。四级为备份恢复系统,它提供生产数据快照及磁带备份,日常全备和增量备份均直接通过远程SAN备份到异地中心,用于严重事件的应急恢复工作。从第一级到第四级预案,故障带来的损害程度逐渐增大,处理时间也逐步增长,当然对业务的影响程度也逐渐增大。根据事件发生的性质和影响程度,优先采用影响业务小的预案,并视情况逐步升级应急预案,目的是使事件对业务的影响减少到最低。 多级联动,重点保障。建立完善的应急管理制度,才可以保证在遇到突发事件时,应急管理组织体系能够有效运转。经过几年的实践,山东移动建立了应急监测预警机制、信息沟通机制、应急决策和协调机制、分级负责与响应机制。理顺了业务与IT部门在应对突发事件中的关系、应急指挥和实施部门的关系、综合应急部门和支持厂商的关系,建立了信息统一、管理对接、资源共享、协同有力的应急管理机制,调动各方面应急管理的积极性。一方面,梳通内部流程,打通省市间、账务中心与其他部门间的通道;另一方面,梳通厂家支持流程,与支持厂商建立合作关系,从而构建了“省-市-合作伙伴”多级联动的应急保障体系。 不同业务及系统的应急代价是完全不同的,同时带来的应急手段差异也很大,需要以“最小的代价”进行系统的“最快应急”。对开户、缴费、业务变更等关键业务,山东移动自主独立开发了单独的关键业务保障小系统,独立于BOSS系统外,同时和BOSS系统建立自动接口,确保紧急情况下可以启用该系统,进行最关键业务的办理。在系统异常、版本上线、本地接管、容灾切换的过程中,可以启用关键业务保障子系统,进而打造一个关键业务不间断的BOSS系统。 成功落地的云计算 山东移动BOSS系统的核心业务都是构建在EMC公司的设备和软件之上,包括EMC Symmetrix DMX存储阵列、SRDF/快照等。按照惯例,运营商一般将系统架构设计和建设主要交给厂商/系统集成商来主导,山东移动在BOSS应急体系建设中坚持自己主导,与厂商进行互动,充分利用厂商技术、产品、服务和经验,进行自主创新,取得了良好的效果。 山东移动的“多中心业务容灾”模式,就是在应急系统架构上的一个自主创新。具体做法是,将容灾机房和生产机房混合部署。例如,A、B、C三个机房,每个机房都有完整的BOSS系统,各自承担一部分地市的业务。C机房最大,对A和B机房同时进行灾备,任何一个机房出现严重问题,其他两个机房能够接管全部的业务。 “多中心业务容灾”的关键在于,根据多年系统维护经验,提出对业务处理进行纵向拆分。业务处理纵向拆分,就是山东移动根据对业务应用的思考,自己做出的决定,目的是将故障对客户的影响减少到最低。这也是实现多中心良好运转的前提。这样,山东移动就将业务处理分布到三个数据中心,每个中心平时均有完整的BOSS系统,承担一个区的业务。当一个系统发生故障时,影响的只是该区域,而且可以切换到别的区域系统上应急处理。相比之下,横向拆分,是指让全省所有用户运行一个系统,例如全省的营业系统、全省的账务系统,当一个系统发生故障时,会影响到全省。 这样做也有利于提高应急平台的可用性。当业务处理系统处于“正常状态”时,业务负载均衡,应急系统处理压力不大,业务服务响应速度很快。而当某个数据中心的业务系统处于“应急状态”时,只需要数据中心的相关业务资源进行应急切换即可,可以很快做出应急响

文档评论(0)

82393aa + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档