- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于计数算法网管告警关联问题研究
基于计数算法网管告警关联问题研究
摘要:在日常综合监控过程中,一旦产生网络故障,海量告警集中呈现,告警的多种类型导致同一故障源生成多张故障单,影响判断故障点的时限。为解决告警关联准确率低、查询效率低的问题,该文基于原有关联算法进行改进,提出新的计数关联算法,通过增加阈值临界点的分析,生成新的根源故障,统一关联相关告警和子故障单,实现跨专业告警的关联派单,提高维护人员的工作效率,及时排除真正的故障,以达到网络通信的安全目标。
关键词:回溯算法;计数算法;阈值
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)04-0056-02
1 概述
随着通信信息网络技术的飞速发展,通信运营商的全业务经营使网络规模不断发展,城域网、传输网、交换网、核心网、综合平台等网管告警激增,为维护全网业务稳定运行,实施告警监控[[1]],有效告警分析[[2]],告警数据挖掘[[3]],告警关联[[4-5]],及时派发故障单处理网络设备告警是网络质量保障的基本要求。
绝大多数网络事件来源于网络设备告警,当上层网络设备发生故障时,会产生批量告警,其中多数是连带的下联的设备产生的衍生告警,在大量的告警产生时,真正重要的根源告警会淹没在次要告警中,导致监控人员的处理不及时,进而导致故障的处理时间增加。现有的关联告警由于关联效率低、匹配准确率低的问题,在设备扩容告警增加的情况下缺点逐渐被放大,本文基于现有的关联规则进行优化,提出新的计数关联算法,通过增加阈值分析、设备性能缓存优化等措施,提高告警的关联率,从而实现告警的压缩、整理、统一、归纳,提高监控人员判断告警的准确性和效率,从而保障全网络的安全稳定运行。
2 告警关联机制
2.1告警类型
由于运营商网络的复杂多样性,涉及传输网、移动交换网、核心网、数据城域网、综合平台系统等不同业务和网络,涵盖系统服务器和网络设备等几十种厂商,比如传输网重要告警有:LOS、LOF、光功率异常、网元丢失、网元连通性中断、单板告警等。移动网重要告警有:基站断站、失联告警、节点丢失、退服告警、接口告警、SCTP链路告警等。核心网重要告警有:LINK down、时钟告警、网元告警等。数据城域网重要告警有:光功率异常、温度异常、上联端口down、CPU使用率过高、非物理层故障等。告警的多样化呈现使得基层维护人员很难在第一时间判断故障点,大大增加处理故障的时间。
以上简单呈现了几种常见的影响批量故障的不同业务网的告警表示方式,但是不同厂商的设备故障告警代码均不同,需仔细甄别,统一收纳进入综合网管系统予以应用,使基层维护人员能统一收集上报告警列表,最终进行不同业务间的告警匹配及关联,统一处理故障单。
2.2现有告警关联算法
由于缺乏有效手段对跨专业设备的故障告警进行归纳统一整理,导致同一根源故障影响下不同专业的告警出现重复派单。对此,现有实现告警关联的方法是回溯关联算法[[6-8]]:视新到达的故障告警为根源告警,查询与该告警相关的资源数据库和所有历史告警,判断是否有历史告警为该故障引起的关联子告警。但是该算法并不理想,存在以下问题:
1)匹配效率低,即子告警先于根源告警到达才能有效匹配
2)查询效率低,即查询过程中计算量巨大,现有数据库和硬件设备难以满足
3 优化告警关联机制
针对原有的回溯关联算法匹配效率低、查询效率低的缺点,这里提出采用一种新的计数关联算法:假定到达的故障告警为子告警,查询并标记上联设备,并记录所有设备单位时间段内被标志的次数。若超过阈值则衍生出新告警,并由新告警对历史告警进行关联压缩。
以下为计数关联算法流程图:
通过图1可看出,计数关联算法重点实现标记故障单的累积,当累积值达到特定阈值时,触发系统生成新的根源告警,并生成一张根源故障单,将已有的子告警生成的故障单和后续判断为同一上联设备影响下的子告警生成的故障单均关联到此根源故障单,进行统一派单维修,这样就有以下优势:
1) 告警关联匹配效率高:可将根源告警前后所产生的所有告警均统一整理纳入根告警。
2) 查询效率高:通过调用根源告警涉及上联设备比对,并通过缓存设备,无需全网比对,效率值更优化。
从图2可看出,由于资源查询模块的增加,降低了综合资源系统的压力,提高了查询效率,针对子告警所涉及的上联设备查询做缓存,并针对设定的阈值分析,产生第5步的衍生告警,通过综合告警系统关联所有相关告警,提高匹配效率。
计数关联算法对于根源告警和子告警到达先后无要求,匹配效率显著提高。同时计算量也显著下降。为验证计数关联算法优化效率的提升,从近3个月的资源数据中调用告警资源:假设综合资源数据库记录数为10万条,厂商网管告
原创力文档


文档评论(0)