数据中心日常运维及应急处理方案 .pdfVIP

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

四、数据中心日常运维及应急处理方案

数据中心要保持稳定的运行,需要大量的专业技术人员。一般承担重要业务的数据中心

都是有人24小时值守,无人值守的数据中心一般只能承担不重要业务,完全无人管理运维

的数据中心几乎没有。所以数据中心日常运维工作烦琐,但又很重要。随着人们的工作生活

对数据的完全依赖,承载数据计算、运行的数据中心正发挥着越来越重要的作用,这更突显

出运维工作的重要。

当一个数据中心建成投产后,运维工作就开始了,一直到数据中心的生命周期结束。一

般我们可以将数据中心的运维工作分为四大类:一是日常检查类;二是应用变更、部署类;

三是软、硬件升级类;四是突发故障处理类,下面就来详细说一说这些运维工作,让大家对

运维工作有个了解。

1、数据中心日常运维工作、日常检查

“千里之堤,溃于蚁穴”。任何的故障在出现之前都可能会有所表现,小的隐患不消除,

可能导致重大的故障出现,所以数据中心日常的例行检查工作枯燥,但也很重要,可以及时

发现一些运行中的隐患。根据数据中心承载业务重要性的不同,要对数据中心里的所有运行

的设备进行例行检查。一些数据中心设备厂商提供了检查软件,比如网管软件,安全防护软

件等。可以利用这些软件对数据中心网络[注]进行检查,看日志是否有异常告警,网络是否

出现过短时中断,端口是否出现UP/DOWN等。通过网络探测软件看网络质量如何。检查服务

器应用服务是否正常,CPU内存等利用率是否正常。对应用业务进行检查,比如如果有搜索

业务,就可以通过服务器进行单词搜索,看搜索的结果和延迟是否在正常的范围之内。这些

检查每日都要重复检查,一旦有异常及时处理与消除,必要时将重要业务切换到备用环境中,

然后排除后再切回。

对数据中心的机房环境也要进行检查,环境的温度、湿度、灰尘是否合乎要求。空调、

供电系统进行运行良好,设备运行是否过热,地板、天窗、消防、监控都是检查的部分。不

合理的地方要及时进行整改,而不应该偷懒。经常到一些数据中心,就会发现值班运维人员

很多都抱着电脑在浏览网页,打游戏。对于日常检查应付一下,甚至根本不去检查,只要没

有出现故障,就打游戏消耗时间,这样数据中心出现故障是迟早的事。一旦出现故障就毛手

毛脚,甚至哪个业务走的哪个设备,哪个端口哪个网线都不清楚,本来一个小故障可能因为

不熟悉导致大故障,因此日常检查绝不能应付,虽然需要不断重复,但却很重要,在持续的

检查过程中,将会对数据中心的理解越来越深,这样每次检查都会有新的发现,在检查中进

行学习。

2、数据中心日常运维工作、应用变更

数据中心承载的业务不会是一成不变的,随着业务的多样化,经常要对业务进行调整,

包括服务器和网络的设置。因此要对服务器和网络设备操作很熟悉,主要需要掌握服务器命

令和网络协议。要根据应用的需要,做出变更。这时就对运维人员提出了更高的要求,不仅

是对数据中心原有业务要非常熟悉,还要对新上的应用业务有正确的理解,这样才能在不影

响原有业务的基础上做调整。这样的应用变更每个月可能都要做几次,是数据中心运维人员

的必修课,突显了一个技术人员的基本技能水平。这时要对设备操作命令比较熟悉,懂得如

何实现业务,要经常和设备厂商的技术人员打交道,通过交流尽快掌握设备操作方法。同时,

由于设备厂商对应用业务缺乏了解,这就需要运维人员在应用业务和设备具体实现之间做好

协调,处理。以最快的时间和最小的代价完成应用业务部署。

3、数据中心日常运维工作、软硬件升级

数据中心的设备一般运行周期是五年,不断地有设备需要逐渐淘汰进行更换,也有一些

设备因为存在软件缺陷需要升级,因此软硬件升级也是运维工作的一部分,尤其是软硬件出

现故障时,就必须要进行更换。有时为了不影响业务,往往还需要设备厂商提供软件补丁来

解决问题。数据中心的设备成百上千,出现软硬件故障很正常,所以要不断地进行软硬件升

级,这类工作往往都要在业务量最少的凌晨之后进行,运维人员通宵熬夜是常有的事,运维

人员要有一个良好的身体素质,否则会吃不消。软硬件升级时需要做好回退机制,以防升级

出现问题时无法回退,业务长时间无法恢复。当接手数据中心运维工作就会发现,怎么会有

那么多的升级,几乎每个月都要有升级操作,熬夜升级工作成了运维人员的家常便饭。

4、数据中心日常运维工作、突发故障

没有任何一个数据中心是不出故障的,在数据中心运行的过程中都会出现这样那样的问

题。这时就显示出运维人员的高技能水平,根据统计百分之八十的故障都是人为故障,所以

运维人员的水平高低往往决定了一个数据中心运行的稳定程度。另外对于突发故障,高水平

的运维人员

文档评论(0)

150****6555 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档