- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于融合技术的异常数据挖掘方法
摘要:本文在分析了常用的异常数据挖掘方法的优劣后提出了一种新的异常数据挖掘方法——基于融合技术的异常数据挖掘方法,该方法将两种异常数据挖掘方法融合在一起,以取长补短,分析数据对象的每个属性,对数据进行异常点数据挖掘,利用异常标记数组对数据集进行分离,将异常点数据从原始数据集中移动到异常数据集中,并进行输出。实验表明,基于融合技术的异常数据挖掘方法是可行的,并且是高效的。
关键词:融合技术 异常数据挖掘 方法
A kind of abnormal data mining method based on fusion technology
Wang Xiaoyan
Suqian Radio TV University ( 223800 )
Abstract: Based on the analysis of the merits of the common abnormal data mining method is put forward after a new method of outlier data mining, outlier data mining method based on fusion technology, this method will be two kinds of abnormal data mining method fuses in together, in order to complement each other, through the analysis of the various attributes of a data object, the data is abnormal points, data mining and data sets to make use of abnormal tag array data separation, the anomalous point data from the original data set to move to abnormal data set, and the output. Experiments show that the abnormal data mining method based on fusion technology is feasible, and is efficient.
Key words: Fusion technology Abnormal data mining methods
一、 基于融合技术的异常数据挖掘方法的提出背景
在通常的应用中,常用的异常数据挖掘方法有着不同的优势,同时也存在不足。
基于统计的方法的优势是能根据数据分布函数确定地检测出异常点数据,它主要应用于科研计算,缺点是较难事先了解数据的分布特征。与基于统计的方法相比,基于距离的方法跟虽然不需要用户拥有相应领域的知识,并且其在概念上也较为直观,但是其参数的设置较难,参数设置的不当,会给算法的结果带来严重的影响。
与基于距离的异常点相比,基于密度的异常点更贴近异常定义,其通常能检测出基于距离异常方法所不能识别的一类异常数据即局部异常,其缺点是不能够挖掘出所以的异常,它挖掘的只是局部异常。
目前的异常点数据挖掘技术,对于解决异常点挖掘有很大的帮助,但是还是很难有效地挖掘异常点数据所以,我们提出了一种基于融合技术的异常数据挖掘方法,用来解决异常点挖掘问题。此方法能解决异常点挖掘的一些实际问题,弥补了一些现有异常点算法的不足,能够提高检测的效果,而且能简化参数的设置,方便用户的使用,也能扩大相应的使用范围。
二、 基于融合技术的异常数据挖掘
2.1 概念和算法描述
基于融合技术的异常数据挖掘方法的基本思想是:通过数据对象属性逐个判断数据点是否为异常点。利用所输入的预期异常点数目、距离函数F,计算数据属性距离值d,通过异常属性的定义挖掘并标记出数据对象的异常属性,通过数据对象属性的异常标记,分离并输出异常点数据。下面给出该算法的定义:
引理1. 数据集T1,N1为数据对象的数目,对象o为异常点数据,其定义为:以数据对象o为领域中心,以d为领域半径内所包含的数据对象最大个数为k1,k1N1,k1为异常数据参数(人为设定),d为半径参数(人为设定)。其中包含在d领域内的数据对象q满足:q∈T、F(o,q)= d,F(o,q)是对象o和对象q的距离函数。
引理2. 数据集T1,N1为数据对象的数目,M1为对象的属性个数,对象o的i属性为异常属性,其定义为:以对象o的属性i为中心,为领域半径,该领域内所包含的数据对象最大个数k1,k1N1且k1为输入的异常属性参
文档评论(0)