- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
几种常用的异常数据挖掘方法;在数据挖掘的过程中,数据库中可能包含一些数据对象,它们与数据的一般行为或模型不一致,这些数据对象被称为异常点,对异常点的查找过程称为异常数据挖掘,它是数据挖掘技术中的一种.异常数据挖掘又称孤立点分析、异常检测、例外挖掘、小事件检测、挖掘极小类、偏差检测等.孤立点可能是“脏数据”,也可能是与实际对应的有意义的事件.从知识发现的角度看,在某些应用里,那些很少发生的事件往往比经常发生的事件更有趣、也更有研究价值,例外的检测能为我们提供比较重要的信息,使我们发现一些真实而又出乎预料的知识.因此,异常数据的检测和分析是一项重要且有意义的研究工作。;异常数据挖掘的简介;聚类数据集;;异常点数据挖掘的任务可以分成两个子问题:
(1)给出已知数据集的异常点数据的定义;
(2)使用有效的方法挖掘异常点数据.对数据模式的不同定义,以及数据集的构成不同,会导致不同类型的异常点数据挖掘,实际应用中根据具体情况选择异常数据的挖掘方法.
;;基于统计的方法;不一致性检验是如何进行的?;目前利用统计学研究异常点数据有了一些新的方法,如通过分析统计数据的散度情况,即数据变异指标,来对数据的总体特征有更进一步的了解,对数据的分布情况有所了解,进而通过数据变异指标来发现数据中的异常点数据.常用的数据变异指标有极差、四分位数间距、均差、标准差、变异系数等等,变异指标的值大表示变异大、散布广;值小表示离差小,较密集.;用统计学的方法检测异常点数据
的有效性如何呢?;0;目前比较成熟的基于距离的异常数据挖掘的算法有:
;;基于单元的算法(cell-based):在该方法中,数据空间被划为边长等于d/(2k)的单元.每个单元有两个层围绕着它.第一层的厚度是一个单元,而第二层的厚度是[2k-1].该算法逐个单元地对异常点计数,而不是逐个对象地进行计数.对于一个给定的单元,它累计三个计数———单元中对象的数目(cell_count),单元和第一层中对象的数目(cell_+_1_cell_count),单元和两个层次中的对象的数目(cell_+_2_cell_count).该算法将对数据集的每一个元素进行异常点数据的检测改为对每一个单元进行??常点数据的检测,它提高了算法的效率.它的算法复杂度是O(ck+n),这里的c是依赖于单元数目的常数,k是维数.它是这样进行异常检测的:若cell_+_1_cell_countM,单元中的所有对象都不是异常;若cell_+_2_cell_count=M,单元中的所有对象都是异常;否则,单元中的数据某一些可能是异常.为了检测这些异常点,需要逐个对象加入处理.
基于距离的异常数据挖掘方法要求用户设置参数p和d,而寻找这些参数的合适设置可能涉及多次试探和错误.;基于偏差的方法;(1)异常集:它是偏离或异常点的集合,被定义为某类对象的最小子集,这些对象的去除会产生剩余集合的相异度的最大减少.
(2)相异度函数:已知一个数据集,如果两个对象相似,相异函数返回值较小,反之,相异函数返回值较大;一个数据子集的计算依赖于前个子集的计算.
(3)基数函数:数据集、数据子集中数据对象的个数.
(4)光滑因子:从原始数据集中去除子集,相异度减小的程度,光滑因子最大的子集就是异常点数据集.;特点;基于密度的方法;(1)对象p的k-距离(k-distance):对任意的自然数k,定义p的k-距离(k-distance(p)),为p和某个对象o之间的距离,这里的o满足:至少存在k个对象o′∈D\{p},使得d(p,o′)≤d(p,o),并且至多存在k-1个对象o′∈D\{p},使得d(p,o′)d(p,o).
(2)对象p的k-距离邻域(Nk-distance):给定p的k-距离k-distance(p),p的k-距离邻域包含所有与p的距离不超过k-distance(p)的对象.
(3)对象p相对于对象o的可达距离:给定自然数k,对象p相对于对象o的可达距离为
reach-distk(p,o)=max{k-distance(o),d(p,o)}.
(4)对象p的局部可达密度(LocalReachableDistance):对象p的局部可达密度为对象p与它的MinPts-邻域的平均可达距离的倒数.
对象p的局部异常因子表示p的异常程度,局部异常因子愈大
原创力文档


文档评论(0)