云平台存储中的应急演练与管理.docx

云平台存储中的应急演练与管理.docx

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

云平台存储中的应急演练与管理

?

?

信息系统的应急演练是实现企业验证业务连续性能力、组织、预案、团队能否满足既定目标的最佳方式。随着云计算技术的推广,云平台存储逐渐成为一种有效解决企业海量数据存储和管理问题的方式,但相比于传统架构成熟的应急处置体系,业界关于云平台存储开展应急演练和管理方面则稍显欠缺。因此本议题将重点从云平台存储架构与传统IT架构应急演练的区别入手,列举云平台存储常见的故障场景,并分析如何针对各类场景更有针对性地制定应急演练计划。

云平台存储中的应急演练与管理如何开展?

社区专家主张邓毓江西农信运维技术经理:本议题主要由某金融科技公司资深集成工程师孙伟光、某国有银行系统架构师珺祎两位专家针对议题下的关键点进行主张,两位专家的主张在经过我本人、某金融科技公司高级技术主管张鹏、某股份制银行运维工程师陈宇的复议后,最终形成了一定共识供同行参考。

孙伟光某金融科技公司资深集成工程师:

灾备系统的核心就在于使用各种技术和管理手段将灾难化解,在实践中主要表现为两个方面:一是保证企业数据的安全;二是定期开展业务连续性应急演练。

越来越多的人已经习惯于工作、生活在基于IT系统的支持环境中,任何关键信息系统运转的中断或者数据的丢失都将导致不可估量的损失。如何才能保证尽量减少企业数据的丢失、将危险与灾难的损失降低到最小程度呢?这就需要建立应急灾备系统。灾备系统的核心就在于使用各种技术和管理手段将灾难化解,在实践中主要表现为两个方面:一是保证企业数据的安全;二是定期开展业务连续性应急演练,对于IT运营者如何应对在突发事件下开展应急演练是摆在决策者面前的一项新的挑战。

存储系统常见灾备恢复策略(如图1)

图1:生产业务灾备保护策略

生产环境选择存储数据保护策略往往与选择的灾备技术路线息息相关,通用的存储灾备技术路线基本原则:采用技术成熟可靠的产品;采用技术能满足具体业务RTO、RPO要求,并能适应传输网络带宽要求(带宽估算公式为:传输数据量/数据收集时间*RPO*高峰调整因子*压缩比*8/有效传输带宽比)。采用的技术简单实用,避免管理的复杂化,最好是采用平台级的技术,能够适应各种不同应用类型。

生产中心业务系统应用程序备份策略:生产业务系统主备中心部署的系统应用程序配置同步部署,灾备中心应用程序同步通过手工操作与变更管理方式控制,保持生产和灾备中心核心业务系统应用程序的同步管理。

生产中心核心应用系统本地数据备份策略:生产中心通过集中备份软件将业务系统数据备份至本地带库设备(每日备份频率:6-12个小时/次)

灾备中心生产业务系统数据恢复策略:当生产业务系统发生灾难性中断,且进行生产业务系统主备数据中心切换,由灾备中心生产系统灾备端恢复正常的业务应用,当主生产中心生产业务系统恢复正常后,由灾备端灾备存储设备向生产中心生产业务系统存储设备,启动反向存储数据镜像数据备份传送,实现生产和灾备中心重要生产业务系统的数据一致性,实现生产业务系统的数据恢复目标,对生产业务系统进行应急切换,恢复主生产中心生产业务系统对外业务正常运行。

应急演练目的和总体原则

通过应急演练不仅要检验灾备恢复流程的有效性,而且要验证灾备系统是否能够实现正常的切换和回切,确保灾备系统的可用性,培训相关操作人员。

启动灾备中心接管业务时,验证灾备系统是否可达到预定的目标。

总体原则是首先确保不能对生产系统的安全稳定运行造成影响,对此需要遵循风险可控的原则,对于实战切换演练,由于需要业务系统切换到灾备系统上运行,因此在整个实战演练过程中,始终坚持风险可控、影响最小、确保安全的原则。

应急演练三种方式介绍(如图2)

图2:应急演练的三种方式

桌面演练是最基础的灾备演练方式,桌面演练工作量小,易于实施,可以根据实际需求灵活开展,并可以模拟多个场景,使相关人员了解应急响应及业务恢复流程,全面验证技术及业务管理指挥、流程操作、协调配和等方面的综合能力。模拟演练以桌面演练结果为基础,模拟演练是一种对现有生产环境没有影响的演练方式,由于需要虚拟出较为真实的使用场景,因此在技术上的要求较高。实际演练是在具体设定的灾难场景下,将业务切换到灾备中心及业务恢复环境,并在完成数据、应用及业务恢复后由灾备系统提供对内对外的业务服务。

应急演练总体流程介绍

下图(图3)为应急演练总体步骤及流程,主要分为演练准备阶段、演练切换阶段、演练回切阶段各操作步骤。

图3:应急演练总体步骤及流程

传统模式下与云环境下演练特点与区别

传统灾备中心应用和数据的部署模式会遵循生产端的架构,并配置不高于生产端一半的资源。在生产中心使用300台服务器作为应用服务器,30台服务器作为数据库服务器;灾备中心也用类似的部署模式,只是服务器数目或者配置减半。这种方式容易实现,但带来的其他问题是灾备中心

您可能关注的文档

文档评论(0)

181****4800 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档