数据仓库与数据挖掘原理及应用(第二版)课件作者王丽珍周丽华陈红梅第9章节.pptVIP

数据仓库与数据挖掘原理及应用(第二版)课件作者王丽珍周丽华陈红梅第9章节.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第九章 异常检测 第九章 目录 9.1 概 述 9.2 基于距离的异常检测 9.3 基于密度的异常检测 9.4 基于图的异常检测 9.5 本 章 小 结 . FindAllOutsM(FM)算法(2) 算法:FindAllOutsM算法(D,dmin,M) 输入:数据对象集合D,邻域半径dmin,一个异常的dmin邻域内最多对象数目M 输出:D中的异常对象 步骤: (1)for q=1 to m countq=0 //m是单元数,单元的对象计数器清零 (2)将 D中每个对象p映射到合适的单元Cq中,存储p,countq+1 (3)检测各个单元,if countq M,then 将Cq标记为红色 //Cq中的所有对象都不是异常 (4)对每一个红色单元Cr,将它的每一个L1邻域标记为粉红色,提供未曾被标记为红色的邻域 (5)for 每一个非空的白色单元Cw(未被标记颜色) (5.1) (5.2)if countw2 M,then 标记Cw为粉红色 (5.3)else (5.3.1)(5.3.2)if countw3 ?M,then 输出Cw中的所有对象 //都是异常 (5.3.3)else for Cw中的每一个对象p countp= countw2 for L2(Cw)中的每一个对象 if then countp+1 if countp ?M then 输出p //p是异常 在FD算法中,前5步的处理与FM算法相似,只是在FD的第(2)步,不再存储对象,但是记录有对象被映射到Cq中的页。建立这样的联系非常重要。因为在后面的步骤中,可能需要获取一个给定单元的对象,或者需要知道一个特定页中的对象被映射到了哪些单元中。在(5.3.2)步,如果检测出一个白色单元中的所有对象都是异常,则将此白色单元标记为黄色。它的对象在(6)从相应的页读入内存,然后在(8)步标记并输出。(6)只读那些至少包含一个白色对象或黄色对象的页,即A类页。这些页的白色对象或黄色对象与白色单元Cw一同存储。Cw中存储了countw个对象,并且countw?M。为了处理L2邻域,(6.2.1)的第二步将dmin-邻域计数器初始化为Cw? L1(Cw)中的对象数。 . FindAllOutsD(FD)算法(7) 在(7),对每一个非空的白色单元Cw,算法只使用( 6)读入并存储起来的对象作为潜在邻域,对Cw中的每个对象进行检测。(7)运行之后,非空白色单元中的一些或所有对象可能不再需要进一步比较,因此减少了(9)中读的数目。在(9),对于那些既不是白色单元,又不是黄色的单元,必须进行读磁盘的操作。这相当于读B类页和重读A类页。然后,仅用新从磁盘读入的对象检测每个白色单元中的对象。 与FM算法相似,FD算法的复杂性也与N呈线性关系。FD算法的最大优点是:遍历数据库的次数不超过3次。对于特别大型的数据集,FD算法遍历数据库的次数比NL算法少。当维数不超过4维时,FD算法比NL算法优越。当k=5之后,NL算法开始显现出优势。 . FindAllOutsD(FD)算法(8) 9.3 基于密度的异常检测 9.3.1 相关概念 9.3.2 基于密度的异常检测算法 9.3.1 相关概念(1) 1)k距离 对象p的k距离k-distance(p)是p到它的k最近邻的最大距离。它定义为p与对象o?D之间的距离d(p,o),满足:(1)D中至少存在k个对象到p的距离小于或等于p到o的距离。(2)D中最多有k-1个对象到p的距离比p到o的距离小。k与聚类算法DBSCAN中的MinPts相同,用于定义对象p的局部邻域。 2)k距离邻域 对象p的k距离邻域Nk-_distance(p)(p)包含所有与p的距离不超过k_distance(p)的对象,即: Nk-distance(p)(p)={q?D﹨{p}|d(p,q)? k-distance(p)} ? ? ? ? ? ? ? o p1 p2 reach-distk(p2,o) reach-distk(p1,o)=k-distance(o) 3)可达距离 给定自然数k,对象p关于对象o的可达距离reach_distk(p,o)为: reach_distk(p,o)=max{k_distan

您可能关注的文档

文档评论(0)

时间加速器 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档