云平台统一运维的工作内容.pdfVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

云平台统一运维的工作内容

(一)监控与告警管理

为达到的可用性目标,提供功能强大的监控管理系统对云平台进行统一监控

及时发现问题,确保各个IT系统功能7*24小时稳定可靠运行。监控管理总体要

求如下:

针对网络、计算、存储和虚拟层等各系统的不同特点,制定详细完整的常规

巡检制度及检查/监控规程,确保云平台的高可用性;

监控系统本身的运行情况,每天由值班工作人员进行检查,包括监控软件运

行情况、声光电系统工作状态、短信猫运行状态,确保监控系统的正常运行;

监控系统达到:告警出现时立即通知相应系统的后台值班人员,由后台值班

人员负责故障的排除及判断是否升级故障;

支持邮件或者短信方式的主动告警。对于监控系统所产生的告警,值班工作

人员应按照事件处理流程,做统一记录,并进行故障处理;

监控系统应确保安全管理,操作人员严格按规定执行登录记录、数据备份、

系统软件备份齐全;

(1)平台资源及网络监控

平台资源网络监控应能够监测支撑网络全部物理设备及虚拟设备的当前实

时流量、资源使用率、链路状态;对于异常情况,可以根据告警管理当中设定的

监控原则及标准,进行主动告警,主要监控内容如下:

设备管理:监控在网交换机、路由器、安全设备及虚拟设备等的设备数量、设

备状态、设备标签、型号、IP地址、设备类型及资产投入使用时间;

拓扑管理:监控网络拓扑及异常变化;

性能管理:监控网络设备的通断、CPU、内存等性能指标

告警监控:监控网络设备的故障,及时产生告警,包括主动轮询、设备trap

上报、设备syslog上报等多种方式;

告警可以通过邮件、短信等方式通知维护人员;

(2)应用监控

应用层监控能够主动监测各项云应用、数据库系统运行情况,根据告警管理

当中设定的监控原则及标准,进行主动告警,主要监控内容如下:

服务器监控:可监控到服务器的可用性、健康状况、CPU、内存利用率等基

本指标;监控磁盘利用率、网络接口、进程等扩展指标;

(3)机房监控

机房环境监控系统应达到:温度、湿度、漏水检测、氢气监控、闭路监控等

测量准确,数量显示稳定;

动力环境监控系统应达到:交流、直流等被测量准确,数据显示稳定;

火灾自动报警系统应达到:无误告警出现,烟感告警反应时间满足要求;

门禁监控系统应达到:门禁出现异常及时通知相应的维护人员,进行故障的

判断及维修。

(二)硬件设备运维

运维管理系列规范对硬件设备运维给出了详细的操作规范和指导,构建严密

的监控防护体系,对云机房内的服务器、存储设备、安全设备、终端展示设备、

网络设备的正常运行进行运维。硬件设备老化故障是数据中心运维无法逃避的主

要问题,是大量业务故障的根源,针对设备老化问题制定了许多的管理要求,如

比较典型管理要求:

(1)硬件标准化:对上线硬件选型、规格做标准化设计,选型确定前必先

经过严格的测试,严控硬件质量。硬件标准化也便于建立备件池,大大缩短故障

设备更换时间。

(2)硬件生命周期管理:采用IT系统对投入运行的硬件设备做全生命周期

管理,从上线到退役做监控管理。对接近维保期限的硬件设备做过滤筛选呈现,

并触发预警,运维人员发现预警则开始调度备件进行更换处理。

(3)硬件设备巡检:当IT监控系统对某种故障条件没能有效监控时,巡检

是另一道可靠保障,根据云运维管理规范要求,机房须制定值守排班表,每天按

照巡检内容清单进行例行巡检,如设备报警指示灯是最重要的巡检项。并定期做

深度巡检。

(4)平台服务高可用:硬件故障无可避免,但是服务不能中断,云运维规

范要求,所有上线平台服务均需要审查可用性设计方案,否则不予上线。

(三)网络运维

网络运维包括用户层网络运维和平台层网络运维。

用户层网络运维,是指对用户隔离的虚拟网络(VPC)的运维,项目提供的

云Web管理控制台可随时随地登录进行虚拟网络运维,远程管理且所做配置无

需等待即时生效。VPC服务支持网络拓扑可视化、节点自动发现。

云平台层面,网络的可靠稳定是云服务可用性的关键因素。云服务的可用性

依赖可靠的网络,可靠的关键是网络运维。

运维接入,运维采用堡垒机解决方案,对运维人员可授权,对历史运维操作

行为可追溯。

方案构建了高可用、可

文档评论(0)

132****6651 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档