数据仓库与数据挖掘原理及应用(第二版)课件作者王丽珍周丽华陈红梅第9章节.pptVIP

下载本文档

1
0
约1.23万字
约 48页
2018-05-08 发布于广东
举报
版权申诉

数据仓库与数据挖掘原理及应用(第二版)课件作者王丽珍周丽华陈红梅第9章节.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第九章异常检测第九章目录 9.1 概述 9.2 基于距离的异常检测 9.3 基于密度的异常检测 9.4 基于图的异常检测 9.5 本章小结 . FindAllOutsM（FM）算法(2) 算法：FindAllOutsM算法（D，dmin，M）输入：数据对象集合D，邻域半径dmin，一个异常的dmin邻域内最多对象数目M 输出：D中的异常对象步骤：（1）for q=1 to m countq=0 //m是单元数，单元的对象计数器清零（2）将 D中每个对象p映射到合适的单元Cq中，存储p，countq+1 （3）检测各个单元，if countq M，then 将Cq标记为红色 //Cq中的所有对象都不是异常（4）对每一个红色单元Cr，将它的每一个L1邻域标记为粉红色，提供未曾被标记为红色的邻域（5）for 每一个非空的白色单元Cw（未被标记颜色）（5.1）（5.2）if countw2 M，then 标记Cw为粉红色（5.3）else （5.3.1）（5.3.2）if countw3 ?M，then 输出Cw中的所有对象 //都是异常（5.3.3）else for Cw中的每一个对象p countp= countw2 for L2(Cw)中的每一个对象 if then countp+1 if countp ?M then 输出p //p是异常在FD算法中，前5步的处理与FM算法相似，只是在FD的第（2）步，不再存储对象，但是记录有对象被映射到Cq中的页。建立这样的联系非常重要。因为在后面的步骤中，可能需要获取一个给定单元的对象，或者需要知道一个特定页中的对象被映射到了哪些单元中。在（5.3.2）步，如果检测出一个白色单元中的所有对象都是异常，则将此白色单元标记为黄色。它的对象在（6）从相应的页读入内存，然后在（8）步标记并输出。（6）只读那些至少包含一个白色对象或黄色对象的页，即A类页。这些页的白色对象或黄色对象与白色单元Cw一同存储。Cw中存储了countw个对象，并且countw?M。为了处理L2邻域，（6.2.1)的第二步将dmin-邻域计数器初始化为Cw? L1(Cw)中的对象数。 . FindAllOutsD（FD）算法(7) 在（7），对每一个非空的白色单元Cw，算法只使用（ 6）读入并存储起来的对象作为潜在邻域，对Cw中的每个对象进行检测。（7）运行之后，非空白色单元中的一些或所有对象可能不再需要进一步比较，因此减少了（9）中读的数目。在（9），对于那些既不是白色单元，又不是黄色的单元，必须进行读磁盘的操作。这相当于读B类页和重读A类页。然后，仅用新从磁盘读入的对象检测每个白色单元中的对象。与FM算法相似，FD算法的复杂性也与N呈线性关系。FD算法的最大优点是：遍历数据库的次数不超过3次。对于特别大型的数据集，FD算法遍历数据库的次数比NL算法少。当维数不超过4维时，FD算法比NL算法优越。当k=5之后，NL算法开始显现出优势。 . FindAllOutsD（FD）算法(8) 9.3 基于密度的异常检测 9.3.1 相关概念 9.3.2 基于密度的异常检测算法 9.3.1 相关概念(1) 1）k距离对象p的k距离k-distance(p)是p到它的k最近邻的最大距离。它定义为p与对象o?D之间的距离d(p，o)，满足：（1）D中至少存在k个对象到p的距离小于或等于p到o的距离。（2）D中最多有k-1个对象到p的距离比p到o的距离小。k与聚类算法DBSCAN中的MinPts相同，用于定义对象p的局部邻域。 2）k距离邻域对象p的k距离邻域Nk-_distance(p)(p)包含所有与p的距离不超过k_distance(p)的对象，即： Nk-distance(p)(p)={q?D﹨{p}|d(p，q)? k-distance(p)} ? ? ? ? ? ? ? o p1 p2 reach-distk(p2,o) reach-distk(p1,o)=k-distance(o) 3）可达距离给定自然数k，对象p关于对象o的可达距离reach_distk(p，o)为： reach_distk(p，o)=max{k_distan