- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于网络资源的数据挖据方法.doc
一种基于网络资源的数据挖据方法 摘要:网络资源在运营商中是一种最重要的数据,包含了故障、性能、逻辑关联等重要信息,但由于其规模大,数据复杂,没有得到统一管理与利用。提出一种基于网络资源的数据挖据方法,该方法由数据时间性关联分析技术、数据横向性关联分析技术、数据索引技术组成,能够确定数据时间性关联特性与数据之间的关联,分析业务的时间性能关系、故障的数据关系,能够为电信网络的管理人员提供决策的依据和故障抢修等预案。 关键词:网络资源;数据挖掘;时间性相关;数据相关 中图分类号:TN919.5文献标识码:A文章编号:1005-3824(2013)05-0084-04 0引言 目前运营商的业务运行要产生大量的数据,其中网络资源数据是最重要的一种数据,它包含了网络节点、网络链路、网络业务、网络性能参数、故障等信息,VPI等公司基于网络资源数据对网络进行规划与管理[1]。网络资源数据来自正在运营中的传送网络、数据网络、电话交换网络、无线接入网络等平台的网络管理系统,大部分数据还来自管理员的输入。网络资源数据是管理人员管理网络、进行运行决策、设计网络抢修预案的依据[2]。为了更好地利用这些数据,通过引进资源管理系统[3],可以实现对这些数据的进一步分析和管理。虽然这些分析和管理在一定程度上提高了管理人员的管理和运行决策的水平,但对网络故障、数据热点等分析较弱。例如,根据故障的现象来分析和定位故障的发生点,根据网络性能参数预知网络故障、根据网络变化提供数据热点信息等。 由于来自网络节点、网络链路、网络业务、网络性能参数、故障等的数据非常多,根据网络的大小,网络数据的规模在10万到1 000万条记录之间,那它就成为一种结构化的大数据[4]。针对大数据的计算不能采用传统的思路来解决问题,如果采用SQL语句可能会需要很长的时间。据测试,1 000万条记录的数据规模在10 GB的级别,SQL中的SELECT在普通服务器上随机查一个记录的平均时间会达到5~10 min(如果没有进行过优化的话)。所以在这么大的数据规模上进行数据挖据[5]是一种挑战性的工作。 目前,在大数据上的信息挖掘主要采用预先建立索引的策略[6],通过预先建立的关联关系来找到信息之间的相关性。在结构化数据中,也需要依据信息的分类和聚类等技术,先对这些信息进行分类和聚类,然后通过索引查找来确定需要获得的信息。在这里,我们基于电信运营商的网络资源数据, 建立人们感兴趣的信息及相关性,方便电信运营管理人员的查找和决策。 1数据时间性关联分析 从网络管理系统和资源管理系统中获得的数据是相关的。这些数据的相关性最重要的是纵向相关和横向相关性。数据的纵向相关性是指同一类型数据之间的时间相关性,是正对一系列数据的时间顺序的相关性,例如,业务的误码率在不同的时间段有不同的值,但它们是时间相关的。数据的横向相关性是指不同数据之间的相关性, 例如, 业务的失效状态和链路的状态是直接相关的。在这里我们首先对业务的时间性关联进行研究,即数据挖掘系统收集业务的历史数据,以分析业务的性能(包括误码率[7]、可靠性、服务质量持续性等)。 业务的时间性相关,分别可以从误码率和可靠性等方面进行研究。针对每个业务都有误码率属性。在网络管理系统和资源管理系统中,往往保留着业务的当前值,而历史性的值不被重视。但业务的误码率是时间性相关的,一个业务长期存在误码率比瞬时误码率问题更加严重。 在业务误码率方面的数据挖掘是非常有意义的。以光通道为例,业务数据包含了业务名称、速率、路径和当前误码率等属性,相关数据如表 1所示。从表1中可以看到,对这些属性的挖掘非常有意义,其中光通道的误码率的时间性分析将可以为业务的服务质量的保证和管理人员的决策提供参考意见。在业务误码率方面,业务的误码率是时间相关性的, 随着时间的发展,支持业务的链路和网络节点存在老化等因素,所以,理论上业务的误码率是不断增大的。也就是说每个业务都有生命周期。在网络管理系统与资源管理系统中业务的生命周期等数据是没有的,也没有针对业务误码率的分析系统。 为了维持和分析网络业务的生命周期,针对业务每个时期,系统要对网络业务的误码率进行估计和保留误码率的检测值。这样,我们可以对业务的误码率检测值和误码率的估计值进行比较分析。通过业务的历史发展情况和业务的估算值来分析业务的服务质量。 下面就光通道[8]的误码率作为实例,对误码率的估计值与误码率检测值的时间性关联进行分析。光通道的误码率是一种时间性相关的数值,假设光通道的误码率是线性相关的,即它的误码率是时间的函数,如公式(1)所示。ω ω0+βτ(1)式(1)中:ω是业务当前的误码率;ω0是业务初始的误码率;β是衰老系数;τ是时间间隔。依据公式(1),可以给光通道的误码进行估计。表 2 是针对某个光通道(这里是“OPTLI
文档评论(0)