- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于融合技术的异常数据挖掘方法
摘要:本文在分析了常用的异常数据挖掘方法的优劣后提出了一种新的异常数据挖掘方法——基于的异常数据挖掘方法两种异常数据挖掘方法融合在一起,以取长补短,分析数据对象的属性,对数据进行异常点数据挖掘,利用异常标记数组对数据集进行分离,将异常点数据从原始数据集中移动到异常数据集中,并进行输出。实验表明,基于的异常数据挖掘方法是可行的,并且是高效的
关键词:融合技术 异常数据挖掘 方法
A kind of abnormal data mining method based on fusion technology
Wang Xiaoyan
Suqian Radio TV University ( 223800 )
Abstract: Based on the analysis of the merits of the common abnormal data mining method is put forward after a new method of outlier data mining, outlier data mining method based on fusion technology, this method will be two kinds of abnormal data mining method fuses in together, in order to complement each other, through the analysis of the various attributes of a data object, the data is abnormal points, data mining and data sets to make use of abnormal tag array data separation, the anomalous point data from the original data set to move to abnormal data set, and the output. Experiments show that the abnormal data mining method based on fusion technology is feasible, and is efficient.
Key words: Fusion technology Abnormal data mining methods
一、 基于的异常数据挖掘方法的提出背景
常用的异常数据挖掘方法着的优势,同时也不足。
基于统计的方法的优势是能根据数据分布函数确定地检测出异常点数据,它主要应用于科研计算,难事先数据的分布特征。基于统计的方法相比,基于距离的方法跟不需要用户拥有领域知识,在概念上也直观但是参数,参数设置的不当,会算法的结果。
基于距离的异常点基于密度的异常点更贴近异常定义,能检测出基于距离异常所不能识别的异常数据局部异常缺点是不能出的异常,它的只是局部异常。
的异常点,对于解决异常点有很大的帮助,但是还是很难有效地挖掘异常点数据,我们提出了基于的异常数据挖掘方法,用来解决异常点问题。异常点一些实际问题,弥补了一些现有异常点的不足检测的效果,简化参数的设置,方便用户的使用,也扩大使用范围。 基于的异常数据挖掘
2.1 概念和算法描述
基于融合技术的异常数据挖掘的基本思想是:数据对象属性逐个判断数据点是否异常点。输入的预期异常点数目距离函数F计算数据属性距离值d,异常属性的定义并标记出数据对象的异常属性,数据对象属性的异常标记分离并输出异常点数据。下面给出算法的定义:
引理1. 数据集T,N为数据对象的数目,对象o为异常点数据定义:以数据对象o为领域中心,以d为领域半径内所包含的数据对象最大个数为k,kN1,k为异常数据参数(人为设定),d为半径参数(人为设定)。其中包含在d领域内的数据对象q满足:q∈TF(o,q)= d,F(o,q)是对象o和对象q的距离函数。
引理2. 数据集T,N为数据对象的数目,M为对象的属性个数,对象o的i属性为异常属性定义:以对象o的属性i为中心,为领域半径,该领域内所包含的数据对象最大个数k,kN1且k为输入的异常属性参数。当对象o的i属性的领域所包含的数据对象数目大于k时,对象o的i属性非异常属性。其中包含在领域内的数据对象q满足这样的要求:q∈T且(o,q)= d,(o,q)为对象q的i属性和对象o的i属性的属性距离函数。对于领域半径是这样定义的:的数值等于数据集T中的所有数据对象的i属性值的平均,除去数据对象o的i属性值,是半径参数,它是由算法自动计算
您可能关注的文档
最近下载
- GB+16423-2020金属非金属矿山安全规程.docx VIP
- 2024《拔高训练之50类题型精练》九年级物理全一册.pdf
- 罗道病课件文档.ppt VIP
- T∕CACM 1021.89-2018 中药材商品规格等级 鸡内金.docx VIP
- 人教版(2024)九年级全一册物理全册教案.docx
- T/BGEA001-2019 预拌流态固化土填筑工程技术标准.pdf VIP
- (2025秋新版)二年级语文上册全册教案.pdf
- 涉诈风险账户审查表.doc VIP
- CATIA自由曲面教程教程分析.doc
- 2025云南昆明巫家坝建设发展有限责任公司及下属公司第三季度招聘23人笔试历年参考题库附带答案详解.docx
文档评论(0)