- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
服务可用性监控系统设计与实现
服务可用性监控系统设计与实现
摘要:随着互联网服务研究的不断深入,人们对网络服务的依赖程度也日渐增加。尤其在一些实时性要求较高的网络服务应用上,服务的后台核心系统是否具备高可用性,已经是影响该服务质量的关键因素。本文研究了针对服务可用性监控的服务可用性监控系统架构,提出了一个基于分层架构实现的多模块服务可用性监控系统,架构可以对接入的服务进行实时的监控,并展示该服务的实时可用性数据,从而可以在服务出现故障的时候快速的对其报警。
关键词:可用性;监控;报警
中图分类号:TP393.08
文献标识码:A
DOI:10.3969/j.issn.1003-6970.2016.02.018
引言
随着计算机技术与人们生活的紧密结合,在许多类似金融服务系统、飞行控制系统、医疗系统等应用领域,人们对这些系统的要求是不间断的提供有保障的服务,因为这些服务系统的故障会造成灾难性的后果。高可用性的服务解决方案就是为了解决这样的需求,高可用性系统相比普通的计算机系统来说,复杂性高了很多,其对应的研发成本也高了很多。
对于高可用性系统来说,该系统的用户会在系统设计之前,对系统的设计者提出一些量化标准,比如,要求该系统在一个时间范围内宕机的时间被控制在一定的范围内,高可用性系统由于其较高的设计难度,如果能在系统的运行期间引入量化分析的方法,就可以有效的对其可用性进行预测及报警,所以一个可用性监控系统对于一些大型系统的故障预测及报警有着非常重要的意义。
1 相关知识及研究
1.1 高可用性的定义
对于高可用性 的研究中,有三个相关的术语,分别是可用性 (Availability)、可靠性(Reliability)以及适用性(Serviceability)。其中可用性是指对于用户的使用来说,系统总的可用时间与总时间的百分比;可靠性是指系统在不出故障的情况下持续正常工作的时间;适用性是指对于系统维护、升级的难易程度。
在服务系统的运行周期中,系统的可靠性通过平均无故障时间(MTTF)来表示,平均无故障时间是指系统正常运行的平均时间;系统的适用性通过平均修复时间(MTTR)来表示,平均修复时间是指从系统发成故障到修复完成并重新恢复的平均时间。通过平均无故障时间和平均修复时间可以得到可用性的定义:
从可用性定义的公式可以得出两个影响系统可用性的因素,分别是:
(l)系统各组件的可靠性。这些组件包括服务器硬件、操作系统和服务系统本身,以及其他的支持组件如数据库系统、网络服务器等。
(2)当系统发生故障后,系统重新恢复所花费的时间。如果是服务系统本身的故障,则将该系统重新启动就可以恢复服务了;如果是硬件设施发生故障的话,则需要对定位发生故障的组件并对其进行修复或更换,然后重新启动操作系统和其他相关设备,最终启动服务系统。
一个高可用性系统对系统中所有的组件及子系统都要求其正常工作。在一个系统中,如果大部分组件都具备高可用性,但是另一些组件不具备高可用性,对于整个系统来说,系统也无法保证高可用性,这个特点是高可用性系统的木桶原理。
在一个高可用性系统中,还有两个相关的术语,即持续可用性(Continuous Availability)、容错(Fault Tolerance)。持续可用性是指系统无故障提供服务的理想状态,其也用来表示一个系统的可用性很高,故障时间较少;容错是指即使某些组件出现故障,整个系统依旧可以无故障的提供服务,一些高可用性的解决方案已经提供了一定的容错能力。
1.2 高可用性等级
高可用性等级明的分级是以可用性百分比中数字“9”的个数来区分的,如果一个系统达到二级高可用,则说明该系统的可用性百分比为99%,一年中总的故障时间为3.65天;如果一个系统达到四级可用,则说明该系统的可用性百分比为99.99%,一年中总的故障时间为52.5分钟。可用性分级表如下表:
1.3 服务可用性监控系统相关研究
国内外已经有了许多关于服务可用性分析的研究与设计,例如一些成熟的商用服务可用性监控系统,如IBM Tivoli、HP Buiness Availability Center等,这些商业系统对服务可用性的分析基于强大的监控和数据分析能力,对部署于其上的服务进行实时的监控,并对不满足可用性的服务进行报警,但是这些服务可用性监控系统的购买费用较高,且需要大量监控日志数据的支持,对于国内的一些论文作者的。
我们的目标是建立一个可靠、灵活的服务可用性监控系统,通过在服务可用性监控系统中部署业务系统,可以通过系统直观的看出该业务系统在某段时间内的服务可用性。
2 服务可用性监控系统架构的分析与设计
本服务可用性监控系统提供了简单
原创力文档


文档评论(0)