第九章异常检测数据挖掘：概念与技术知识 1.pptVIP

下载本文档

18
0
约7.06千字
约 40页
2018-05-29 发布于天津
举报
版权申诉

第九章异常检测数据挖掘：概念与技术知识 1.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第九章异常检测数据挖掘：概念与技术知识 1.ppt

第九章异常检测;9.1 概述9.1.1 异常概念;9.1.2 异常的成因;9.1.3 异常检测方法; 当考虑对象间的空间关系时，常用的异常检测方法有两种：（1）基于图的异常检测（Graph--based outlier detection）（2）基于多维空间的异常检测（Multi-dimensional space-based outlier detection）;（3.2）for第一阵列中未标记的每个数据对象ti （3.2.1）for第二阵列中的每个对象tj if dist(ti,tj)?dmin，then counti+1 if countiM，则标记ti不是一个异常，处理下一个ti （4）输出第一阵列中每一个未被标记的对象ti，表示它是一个异常（5）if第二阵列曾经充当过第一阵列，then stop else交换第一阵列和第二阵列的角色，转（2）　　算法（2）考察了第一阵列中对象间的距离，（3）考察第一和第二阵列中对象间的距离，（5）保证数据集中的每个对象都能被作为中心进行考虑。;　　例如，设NL算法用50%的缓冲区。数据集被分成A、B、C、D 四个逻辑块。每个阵列和块能容纳1/4数据集的对象数。数据块和阵列如下图所示。;数据块填充阵列的顺序为：序号第一阵列第二阵列 1． A B、C、D 读4块（A、B、C、D） 2． D A、B、C 读2块（B、C） 3． C D、A、B 读2个块（A、B） 4． B C、A、D 读2个块（A、D）循环4次，总共读了10个块，遍历数据库的次数总计为10/4=2.5次。 NL算法的复杂性为O(kN2)。NL算法不受数据集大小和维数的限制，但是当数据集较大时，NL算法需要多次遍历数据库。如果数据集被划分为n=?200/B?个块（B是缓冲区的百分比），那么（i）算法NL需读的块的总数为n+(n-2)(n-1)，（ii）遍历数据库的次数≥n-2。;9.2.2 基于单元（Cell-Based）的算法;1. 相关概念;性质1：同一单元中两个对象间的最远距离为dmin/2，即性质2：若Cu,v是Cx,y的L1邻域，那么Cu,v中的对象ti与Cx,y中对象tj间的最大距离为dmin，即这是因为相邻单元中对象间的最远距离不会超过单元对角线长度的2倍。;2）2层邻域L2 单元Cx,y的2层邻域L2的定义为： L2(Cx,y)={ Cu,v|u=x?3, v=y?3, Cu,v? L1(Cx,y), Cu,v?Cx,y} 每个非边界单元???72-32=40个L2邻域。;性质3：假如Cu,v? Cx,y，Cu,v既不是Cx,y的L1邻域，也不是Cx,y的L2邻域，那么Cu,v中的对象ti与Cx,y中对象tj间的距离一定大于dmin，即这是因为L1和L2的厚度加起来是3个单元，ti与tj间的距离一定大于 ;性质4：　　① 若Cx,y中的对象数M，那么Cx,y中的对象都不异常；　　② 若Cx,y中的对象数+L1(Cx,y)中的对象数M，那么Cx,y中的对象都不异常；　　③ 若Cx,y中的对象数+ L1(Cx,y)中的对象数+ L2(Cx,y)中的对象数?M，那么Cx,y中的每一个对象都是异常。 ;2. FindAllOutsM（FM）算法;算法：FindAllOutsM算法（D，dmin，M）输入：数据对象集合D，邻域半径dmin，一个异常的dmin邻域内最多对象数目M 输出：D中的异常对象步骤：（1）for q=1 to m countq=0 //m是单元数，单元的对象计数器清零（2）将 D中每个对象p映射到合适的单元Cq中，存储p，countq+1 （3）检测各个单元，if countq M，then 将Cq标记为红色 //Cq中的所有对象都不是异常（4）对每一个红色单元Cr，将它的每一个L1邻域标记为粉红色，提供未曾被标记为红色的邻域（5）for 每一个非空的白色单元Cw（未被标记颜色）（5.1）（5.2）if countw2 M，then 标记Cw为粉红色（5.3）else （5.3.1）（5.3.2）if countw3 ?M，then 输出C

您可能关注的文档

文档评论（0）

yuzongxu123 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第九章异常检测数据挖掘：概念与技术知识 1.pptVIP