- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于全置信度的电信时间序列事务间关联规则
高效算法
迟明群,杨晓峰
北京邮电大学电信工程学院,北京 (100876)
E-mail: chimingqun@
摘 要:电信网络的规模及复杂度日益增大,每天分布在各种网元上的 Agent
都会采集大量的网络性能KPI 时间序列数据。这些时间序列之间是相互影响的。
本文就电信数据的特点,研究了事务间时间序列的关联挖掘,在不产生条件子树
的FP-Growth 算法的基础上,提出了一种改进方法:AFP-Growth 算法。此算法
通过引入全置信度相关度量,解决了电信数据挖掘中零事务、负相关的问题,并
利用全置信度的性质,改进了FP-Tree 的剪枝规则,提高了FP-Tree 搜索的有效
性,进而提高了算法的时间和空间效率。
关键词:事务间时间序列;全置信度;关联规则;数据挖掘
中图分类号:TP301.6
1 引言
KPI(Key Performance Indicator) 即关键性指标是指用于对业务绩效进行衡量
的一种目标式量化关键指标。网络性能 KPI 是在庞大电信网络运营数据中,最
能够描述网络性能质量及网络优化行为的关键性指标。通过把理想 KPI 数值与
观测到的实际网络性能数据进行比较,可以帮助电信运营商确定改善网络和服务
质量的举措。目前,数据挖掘在电信领域中的应用偏重于客户关系分析,虽然各
大运营商开始将网络性能数据纳入到数据仓库的管理中,但是基本处在报表展示
阶段,而对这些重要数据之间变化趋势的相互影响分析不够。大多电信网管分析
系统中采用传统的关联规则算法来发现离散序列数据库中事务内部的关系。而对
诸如:性能KPI 时间序列数据事务之间的关联规则挖掘的研究却很少。
例如,在短信中心网络性能分析中,通过传统的关联规则挖掘发现,“在某
段时间内,当MO 提交成功率下降时,MT 下发成功率有80%的可能性会同时下
降”,挖掘出的关联项在同一事务内。但是,运营商经常还需要发现事务之间的
关联规则:“在某段时间内如果 MO 提交成功率下降到阈值达到预警时,那么
间隔一段时间(如一天)之后的MT 下发成功率有80%的可能性也会出现预警”。
在关联项中引入时间维度,有关联的交易记录发生在不同时间,彼此有先后的关
系,从提升网络性能及服务的角度来看,此类规则的挖掘无疑对于指导网络管理
决策具有更为重要的预测意义。
事务间时间序列关联规则是对传统事务内部关联规则的延伸,也要比传统关
联规则复杂,加之,电信数据库数据量大,数据多维度和时事性高的特点,因此
对挖掘算法的效率提出了更大的挑战。
本文首先建立了事务间多时间序列关联挖掘的数学模型,并引入全置信度相
关度量扩展了支持度- 置信度度量框架。然后基于不生成条件 FP-Tree 的
FP-Growth 算法的思想,利用全置信度的性质对挖掘任务进行了改进,使算法更
适合处理电信数据,最后给出了算法性能的实验结果。
2 相关研究
- 1 -
K.Hantonan[1]等人在Apriori算法基础上提出了一种基于滑动窗口的WINEPI
算法,将关联规则发现应用于事件序列上,提出了片断的定义及从事件序列中发
[2] [3] [4,5]
现频繁片断的算法 。该算法广泛应用于电信网频繁告警关联关系 。Lu 等
人提出了多元跨事务关联挖掘问题,还提出了跨事务关联规则挖掘算法E-Apriori
和E
文档评论(0)