云存储应急演练体系建立及场景设计.docxVIP

云存储应急演练体系建立及场景设计.docx

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

?

?

云存储应急演练体系建立及场景设计

?

?

【导读】云存储技术的应用很大程度上降低了企业构建同城和异地容灾的成本,相比于传统存储架构,云存储具有完全不同的业务特征,比如在数据的一致性同步规则和数据更新粒度等方面,这些业务特征和应用模式的明显区别,使云存储的高可用保护及应急体系建设都区别于传统存储。本文将基于云原生和企业云架构体系的视角,分析如何构建云存储演练的标准体系,通过云存储几种常见的高可用容灾技术,梳理在不同故障场景下的应急切换流程,建立符合云存储标准的应急预案。

一、云存储演练的必要性分析

云存储演练的重要性

随着云计算技术的推广,云存储逐渐成为一种有效解决企业海量数据存储和管理问题的方式。针对企业日常生产过程中产生的不同类型非结构化数据,企业可选择相应类型的云存储(包括文件存储、对象存储、块存储等),对非结构化数据进行统一存储和管理。利用分布式存储架构所提供的的软件即存储能力,帮助企业构建了云服务的基础系统服务层,为云上各类的微服务应用提供了云存储和云共享服务。

针对云存储及云平台的基础设施建立应急切换演练机制,能够显著提升企业处理信息安全事件响应能力、降低和预防发生信息安全事件产生的损失,保障业务连续性。针对企业核心数据、核心存储设备,建立一整套完善的应急预案,构建应急处置机制,并验证应急保障预案的有效性等环节,已经成为业务连续性中重要环节。

云存储VS传统存储

云存储相较于传统的存储架构,云存储的容灾服务通常包括为弹性云计算资源、云硬盘设备、分布式存储设备等服务提供容灾的服务。这些服务不仅为上层应用提供了更为灵活的软硬件一体化部署模式,同时也兼具更加健壮的高可用模式,尤其是在开展应急演练方面:可以基于现有云上的业务策略,按需配置云服务器、云存储的保护实例。并通过存储同步复制技术、磁盘映射技术、数据缓存冗余等技术构建云存储的高可用性,为业务提供数据的可靠性以及业务连续性,从而确保容灾备份的RPO为0,在演练过程中,云存储将弹性云服务器的数据、配置信息复制到容灾站点,并支持应用所在的服务器停机期间从另外的位置启动并正常运行,从而提升业务连续性,相比于传统存储,基于云存储的容灾方式,能够更好的降低容灾建设成本。

二、云存储应急场景及标准体系建设

云存储切换演练及场景建设

根据企业业务连续性相关要求,结合云存储的特点和现状,对应急演练的内容、实施过程以及预期效果,梳理云存储的应急演练特别应该注意以下几个方面:

首先,确立组织演练规划小组,并确定演练范围及周期:前期的演练会尽量降低复杂度,在零风险的前提下进行多次小规模演练,提升管理人员的灾难恢复能力。

设计演练场景并制定恢复策略:针对应急预案设立不同的演练场景及相应的恢复策略。

最后进行实战演练及总结:监控并记录整个恢复过程,验证灾难恢复流程及备份数据的有效性。

构建基于云架构的演练标准体系

由于基于云架构的业务平台,采用分布式计算机存储系统,天然形成了数据冗余存储、具有自动恢复机制,提高了存储数据抵抗外界诸如硬件故障、单台存储设备故障等不可抗风险。因此,在构建基于云架构的演练标准体系方面,要投入更多的关注,覆盖基础设施到应用层,底层环境(物理机、虚拟机、容器)及操作系统(Linux、Windows)、应用容器编排等方面。作者认为构建基于云存储的演练体系应至少应包括:

(1)明确云存储突发事件应急各环节中的角色和责任,提高云存储各项响应和操作能力;在关注云架构环境中,传统的存储设备管理员转变成devops开发运维工程师,对存储的运维也从硬件层面转变为对应用和微服务的支撑。

(2)利用多手段组合的方式,构建云存储应急演练手段技术体系;利用真实可模拟的微服务存储故障等突发事件应急环境来训练参演人员,增强参演人员的心适应能力和调整能力,缩短突发事件应急现场的适应期;

(3)明确云存储在应急演练各环节关键的功能要素,包括SSD云盘的IOPS、吞吐量和访问时延。并据此从定性和量化两个方面构建科学的演练效果评估指标体系;

(4)针对现行传统存储的应急预案、政策法规及应急流程进行测试和评估,发现缺点和薄弱环节并进行针对性改进;发现应急资源准备和保障的缺点和薄弱环节;改进各个环节所涉及组织机构之间的协调和沟通能力;

以云原生思维拓宽演练领域

分布式云存储日益复杂,演练领域的确定,也需要拓宽思路,考虑到诸多传统架构中不存在的不确定因素。比如,机器高负载、网络异常、磁盘IO、节点调度等故障,以及云平台自身的资源、应用服务、容器以及基础设施各环节导致的问题。

以国内某云存储为例,分析云存储相关的各层次下常见故障场景:

基于上述的故障场景,云存储的容错机制通常包括:

云磁盘缓存

将数据缓存在云磁盘中,对常用的数据进行备份,因此,当用户再次访问同一数据时,就从缓存中访问,大

文档评论(0)

幸福是什么 + 关注
实名认证
文档贡献者

幸福是什么

1亿VIP精品文档

相关文档