XX公司基于快速迭代开发模式的电信电子渠道平台运行维护方案的建议.docxVIP

XX公司基于快速迭代开发模式的电信电子渠道平台运行维护方案的建议.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
XX公司基于快速迭代开发模式的电信电子渠道平台运行维护方案的建议

基于快速迭代开发模式的电信电子渠道平台运行维护方案的建议XX公司在竞争异常激烈的经济环境下,一个强大且可靠的IT基础架构是业务成功的关键。尤其对于拥有自己核心应用的企业而言,停机和性能问题会对生产力和收益造成严重的影响。从而需要建立一套完整的运营维护方案。运维流程对于大多数企业来说,建立IT运维系统是必须的。那么如何才能更好的利用这一系统给自己带来好处呢?大量实践表明,IT项目生命周期中,大约80%的时间与IT项目运营维护有关。在运维中经常出现的问题包括未做好变更管理、未及时发现故障、问题上报不及时,以及人员疏忽等问题。这些问题IT管理员需要事先建立运维流程管理,才能更快速准确的解决运维中的问题。完整的运维流程要包含事件管理流程、故障处理流程、报障处理流程、故障上报流程等。事件管理流程具备事件管理功能。事件管理能够根据被监控资源的监测状态发生的因果关系,进行逻辑上关联分析、生成事件。在生成事件的过程中,再根据相关规则定义对故障进行排查,准确定位发生故障的原因。事件生成后,IT运维流程管理系统根据用户定义的事件级别对事件的重要性、危害性进行判断,分级别告警,对于重要的,危害性大的事件进行优先告警,以便确保影响关键系统的故障得到及时解决和处理,尽可能减小故障可能造成的损失。故障处理流程通过预定义好的故障情况,准确定位故障的级别,并通过多样的告警方法将故障信息派发给直接负责人员,避免故障的无法及时处理和是否升级的判定。??? 故障管理通过设定故障规则,能够为一个设备设定多个报警规则或多个设备统一为一个事件报警规则,为每个事件规则设定相关的级别,由系统来确定故障级别和通知对象,并自动触发相关的工单给相关人员。故障信息可以通过声音、告警灯、短信、邮件、脚本等形式告知故障处理负责人。监控运维监控的目的在于保护IT系统的正常、有效运行,在事故发生之前侦测出潜在危机,并通过各种方式将警情信息发送给相关人员及时进行处理。因此,机房监控的核心应该是对IT系统运行状态的监控,而最直接有效的监控应该是直接对IT设备运行状态进行监控。IT设备内部的运行环境,例如服务器内风扇转速与CPU温度等是最直接、最迅速影响IT设备正常运行的因素。有时候即使机房内空调运转正常,机房整体环境参数值也在预设范围内,但某服务器却因为某种原因出现服务器内风扇的转速不正常、CPU过热。如果只监控机房整体环境,此时机房的管理人员是不会得到这种危险信息的,整个系统就会因为该服务器潜在危机没有得到及时处理而意外瘫痪。完善的机房监控系统应该是能够实现对从设备运行情况到机柜微环境再到机房整体环境这样多层次的监控,并能重点实现对设备内部的监控。报警是报告事件的发生,是在故障或危害发生之后向管理人员发送警讯,及时地发送警讯可以缩短故障修复时间,最大程度地保障系统运行。但故障还是不可避免地发生了,影响了系统的正常运行。预警则是在故障或危害发生之前向管理人员报告潜在危机,提示相关人员进行处理,是事前的,可以防止事故的发生。有效的预警可以增加系统平均无故障工作时间,并可以根据危机情况自动延伸到报警。预警与报警的区别就在于它是事前预防性报警,机房监控系统只有具有良好的预警功能才能侦测出潜在危机并分层次逐步扩大警讯发送范围,有效地防止事故的发生,将损失降低到最小。越来越多的机房管理人员也开始意识到预警的重要性,因此机房监控系统必须有预警功能。运维数据分析系统运维类似于系统维护,前者更加侧重于保障系统正常运行,运维有运行和维护两层含义。对于一个系统,有时出错我们无法预知,系统越复杂,其难维护难度更大,为了减少损失,我们尽可能地去预防各种错误,对于突发情况,尽可能地去修复。通过运维数据后,和运维的各个数据和指标,可以总结出系统的高峰期和空闲期等数据,并且可以根据这些运维数据可以对系统后期优化起到很重要参考依据。通过得到的分析数据,可以判断系统的健康程度,从而对系统优化升级提供依据。运维自动化IT运维从诞生发展至今,自动化作为其重要属性之一已经不仅仅只是代替人工操作,更重要的是深层探知和全局分析,关注的是在当前条件下如何实现性能与服务最优化,同时保障投资收益最大化。运维中大量的设备、系统、数据、交互过程等如果需要人工监控的话工作量会很大,所以通过使用运维自动化工具实现监控、运维等工作是很有必要的,自动化包括相关的监控软件、运维自动化脚本、运维自动化工具等,通过这些手段使运维简易化、自动化。运维管理日常运维工作中,要求运维人员主动监控、主动巡检的概念,主动运维监控计划,按照计划时间和随机时间对系统进行巡检。运维人员处理故障和上报故障时必须及时,要跟踪故障事件,从接障到处理再到结束事件,需要自始至终跟踪该故障事件,直至故障事件恢复。运维工作会遇到很多的数据需要总结和分析,以及不同阶段的数据进行对比和分析,这样

文档评论(0)

xcs88858 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档