k邻近空间关系下的离群点检测和关联模式挖掘研究.pdf

k邻近空间关系下的离群点检测和关联模式挖掘研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
k邻近空间关系下的离群点检测和关联模式挖掘研究

KK邻近空间关系下的邻近空间关系下的 离群点检测和关联模式挖掘研究离群点检测和关联模式挖掘研究 重点实验室重点实验室0505级博士:万幼级博士:万幼 -44--2424 报告内容报告内容报告内容报告内容 基于格网密度的离群点检测基于格网密度的离群点检测 空间同位异位关联模式挖掘空间同位异位关联模式挖掘空间同位异位关联模式挖掘空间同位异位关联模式挖掘 一一、、基于格网密度的离群点检测基于格网密度的离群点检测基于格网密度的离群点检测基于格网密度的离群点检测 1.1. 离群点检测的研究背景离群点检测的研究背景 2222.. 目前存在的问题目前存在的问题目前存在的问题目前存在的问题 3.3. 已有的解决办法已有的解决办法 4.4. 我的解决方案我的解决方案 离群点检测的研究背景离群点检测的研究背景离群点检测的研究背景离群点检测的研究背景 统计学家统计学家统计学家统计学家DDDDougougllllasas H H H Hawawkikikikinsns对对对对离群点的定义离群点的定义离群点的定义离群点的定义::离离离离 群点是一个观测值,它与其他观测值的差别如此群点是一个观测值,它与其他观测值的差别如此 之大之大之大之大,,,,以至于怀疑它是由不同的机制产生的以至于怀疑它是由不同的机制产生的以至于怀疑它是由不同的机制产生的以至于怀疑它是由不同的机制产生的。。。。 离群点检测目的离群点检测目的是发现与大部分其他对象不同的是发现与大部分其他对象不同的 对象。对象。 在许多时候,我们需要在进行挖掘之前对数据进在许多时候,我们需要在进行挖掘之前对数据进 行清理,排除会对算法结果有影响的噪声数据行清理,排除会对算法结果有影响的噪声数据 ((((离群点离群点离群点离群点))));;而在另外而在另外而在另外而在另外一一些领域中些领域中些领域中些领域中,,离群点检测离群点检测离群点检测离群点检测 可以指导我们发现不同寻常的情况,从知识发现可以指导我们发现不同寻常的情况,从知识发现 的角度看这是十分有意义的的角度看这是十分有意义的的角度看这是十分有意义的的角度看这是十分有意义的。。。。 实际应用:信用卡欺诈、电子商务、入侵检测、实际应用:信用卡欺诈、电子商务、入侵检测、 生态系统失调、公共卫生等。生态系统失调、公共卫生等。 四大类离群点检测方法之四大类离群点检测方法之四大类离群点检测方法之四大类离群点检测方法之一一 基于基于统计模型统计模型的方法。离群点是那些与数据集的方法。离群点是那些与数据集 的数据分布模型不能完美拟合的对象。的数据分布模型不能完美拟合的对象。 优点:建立在标准的统计学技术之上,当存在优点:建立在标准的统计学技术之上,当存在 充分的先验知识时,检测效果很好。充分的先验知识时,检测效果很好。 缺点:对于无先验知识的情况,模型很难建立。缺点:对于无先验知识的情况,模型很难建立。 此外此外此外此外,,,,模型大多只针对数据集的单个属性进行模型大多只针对数据集的单个属性进行模型大多只针对数据集的单个属性进行模型大多只针对数据集的单个属性进行 操作;对于多元数据,可用的选择少一些,并操作;对于多元数据,可用的选择少一些,并 且对于高维数据且对于高维数据且对于高维数据且对于高维数据,,,,这些检验可能性能很差这些检验可能性能很差这些检验可能性能很差这些检验可能性能很差。。。。 四大类离群点检测方法之二四大类离群点检测方法之二四大类离群点检测方法之二四大类离群点检测方法之二 基于基于基于基于邻近度邻近度邻近度邻近度的方法的方法的方法的方法。。离群点是那些远离大部分离群点是那些远离大部分离群点是那些远离大部分离群点是那些远离大部分 其他对象的对象。其他对象的对象。KnorrNgKnorrNg最早提出基于距离最早提出基于距离 的离群点检测方法的离群点检测方法的离群点检测方法的离群点检测方法。。 优点:较统计模型方法更具通用性,且检测的优点:较统计模型方法更具通用性,且检测的 方案较易实现方案较易实现方案较易实现方案较易实现。。

文档评论(0)

yanpizhuang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档