云平台存储运维的故障诊断及恢复.docx

云平台存储运维的故障诊断及恢复.docx

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

云平台存储运维的故障诊断及恢复

?

?

云平台存储是云基础设施的核心数据基石,包括块、文件和对象等一系列存储服务。由于云存储服务产品的技术复杂性以及与传统IT架构的不同,决定了云平台存储运维的难度高于传统IT环境存储的运维,尤其在面对复杂的生产运行故障时,能否准确快速进行故障诊断,找到问题的根因,并第一时间恢复业务正常运行,是云平台存储运维能力的重要体现。

云平台存储运维中如何进行故障诊断及恢复?

社区专家主张邓毓江西农信运维技术经理:本议题由北部湾银行技术经理哲哲蛙、江西裕民银行高级系统工程师李先科两位专家针对云平台存储运维中故障诊断与恢复的关键点进行了主张,两位专家的主张在经过我本人、某金融机构架构师李威、民生银行科技部工程师白东旭专家的复议后,最终形成了一定的共识供大家参考。

哲哲蛙北部湾银行技术经理:

在运维中,云平台存储的运维除了可以在原生的集中式存储、分布式存储的系统进行运维之外,还需要额外关注云平台层的存储池内的容量告警。

随着云计算、大数据以及新兴的区块链等技术体系的迅猛发展,数据中心的扩容建设进入高峰期,针对金融行业互联网金融、云化、容器化、分布式改造等数字化转型在金融行业不断发展,金融业务向移动、普惠、敏捷和创新方向发展,需要新一代弹性基础设施、微服务平台、分布式中间件和海量数据分析系统提供有效支撑。存储作为关键基础设施依然承担着非常关键的作用,越来越多的存储资源逐渐由传统存储转化为云平台存储。

站在数据中心的生命周期来看,建设只是初期,运维阶段占整个生命周期的80%以上。虽然运维是企业业务系统从规划、设计、实施、交付到运维的最后一个步骤,但也是最终保证生产稳定运行的最重要的环节。金融行业云平台存储运维人员以往接触的更多是硬件,在云数据中心时代对运维人员的要求则已经从面向物理设备,转变为软硬结合,除集中式硬件外还需面向存储型X86服务器以及分布式存储软件的复合管理方式。集中式、分布式存储并存的现状,对存储运维人员在运维和故障诊断恢复方式方面提出了新要求。

传统存储环境与云平台存储环境

进入云服务时代后,站在存储的角度,集中式存储和分布式存储并存的云平台存储池具备了更强的云化和服务化特性。云平台存储中,无论是集中式存储还是分布式存储按照提供的存储服务类型都可以分为几大类:块存储、文件存储、对象存储。块存储是应用最广的存储,块存储一般采用FCSAN或者IPSAN的方式,通过驱动映射将存储层划分的LUN给物理机或者虚拟化使用,目前在金融环境中,由集中式存储提供数据库用的块存储更多;云存储组网同时包括SAN网络和IPSAN网络,用于数据库的集中式存储池采用SAN组网更多,使用方式上以OpenStack架构为例,通过Cinder组件映射存储池给上层主机,划分资源直接由云平台调用执行,对接好环境后无需在存储上进行过多操作,由于分布式存储主要采用服务器组成,便于横向扩展,近年云内块存储在设备选型上越来越倾向于分布式存储。

文件存储主要应用于文件共享、图片视频存储场景。传统的文件存储采用IP方式与客户端建立连接,在使用上主要采用IP方式,对于设备架构这块有NAS集中式存储,也有高密服务器组成的分布式存储集群。而云存储场景使用更加灵活,可以使用为备份存储和文件共享目录,以云服务的方式进行直接挂载给虚拟机,设备选型上与传统存储一致,针对不同的使用场景对兼容性的需求和网络可达性要求比较高。

对象存储是一种基于对象的海量存储,使用起来更灵活。传统的对象存储主要以IP域名的方式进行连接,应用在影像和归档场景比较多,直接通过接口调用使用,如S3、Swift接口,负载和DNS主要用在集群外。云内的对象存储主要用作备份归档、大数据分析PaaS层依赖这些场景,如作为业务存储使用一般需要使用LVS负载。两种场景采用的设备均是服务器。

整体运维以及故障诊断恢复

传统存储与云平台存储存在使用、组网、选型、周边配套上的差异,对整体运维与故障诊断恢复上也有不同的需求。在运维中,云平台存储的运维除了可以在原生的集中式存储、分布式存储的系统进行运维之外,还需要关注云平台层的存储池内的容量告警。

在云平台存储主机性能故障诊断在问题定界上由于云平台存储影响关联的虚拟机范围广,一般需要从问题虚拟机范围开始排查,检查整体平台告警情况,明确是部分虚拟机问题还是整体平台问题,针对主机使用的存储进行初步判断,是否整个云平台虚拟机都有性能问题,还是部分使用某个特定存储池的虚拟机存在性能问题。如果是整个平台的问题,则需要排查是否云平台存储服务故障,是否是在云平台存储与底层的集中式或分布式存储接口出现问题,云平台管理云存储的服务是否存在问题;如果只是部分虚拟机的性能问题,则再分析看是来自于云平台存储中的集中式存储池还是分布式存储池。根据问题的现

文档评论(0)

134****9594 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档