数据挖掘导论-ch10.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘导论 * * 数据挖掘 异常检测 第十章 数据挖掘简介 数据挖掘导论 * * 不规则/异常检测 什么是异常/离群值? 与其余数据相差很大的数据点集 异常/异常值检测问题的变体 给定数据库D,找到具有大于某个阈值t的异常分数的所有数据点x ? D 给定数据库D,找到具有前n个最大异常分数f(x)的所有数据点x ? D 给定包含大部分正常(但未标记)数据点的数据库D和测试点x,计算x相对于D的异常分数 应用: 信用卡欺诈检测,电信欺诈检测,网络入侵检测,故障检测 异常检测的重要性 臭氧消耗历史 1985年,三个研究人员(Farman,Gardinar和Shanklin)对英国南极调查收集的数据感到困惑,表明南极洲的臭氧水平比正常水平下降了10% 为什么Nimbus 7卫星(其上有用于记录臭氧水平的仪器)不记录类似的低臭氧浓度? 由卫星记录的臭氧浓度如此之低,他们被计算机程序作为异常值处理并丢弃! Sources: .au/ozone.html /ozone/science/hole/size.html 异常检测 挑战 数据中有多少离群值? 方法是无人监督的 验证可能相当具有挑战性(就像聚类) 在大海里捞针查找 工作假设: 与数据中的“异常”观察(异常值/异常)相比,存在显着更多的“正常”观察结果 异常检测方案 一般步骤 构建“正常”行为的配置文件 配置文件可以是总体人口的模式或摘要统计 使用“正常”配置文件检测异常 异常是其特征与正常特征明显不同的观察结果 异常检测?方案的类型 图形和统计 基于距离 基于模型 图形方法 箱形图(1-D),散点图(2-D),自旋图(3-D) 缺点 耗时的 主观 凸体船体法 极值点被假定为异常值 使用凸包方法来检测极值 如果异常值出现在数据的中间怎么办? 统计方法 假设描述数据分布的参数模型(例如,正态分布) 应用取决于的统计测试 数据分布 分布参数(例如,平均值,方差) 预期异常值的数量(置信限制) 格鲁布斯测试 检测单变量数据中的异常值 假设数据来自正态分布 一次检测一个异常值,删除异常值,然后重复 H0: 数据中没有异常值 HA: 至少有一个离群值 Grubbs’ 检验统计量: 拒绝H0如果: 基于统计的似然方法 假定数据集D包含来自两个概率分布的混合的样本: M (多数分布) A (异常分布) 一般方法: 最初,假设所有数据点属于M 令Lt(D)是D在时间t的对数似然性 对于属于M的每个点xt ,将其移动到A 令Lt+1 (D)为新的对数似然。 计算差值, ? = Lt(D) – Lt+1 (D) 如果 ? c (某些阈值),则xt被声明为异常,并从M永久移动到A 基于统计的似然方法 数据分布,D = (1 – ?) M + ? A M 是从数据估计的概率分布 可以基于任何建模方法(朴素贝叶斯,最大熵等) 最初假设A是均匀分布 在时间t的似然性: 统计方法的局限性 大多数测试是针对单个属性的 在许多情况下,数据分布可能不是已知的 对于高维数据,可能难以估计真实分布 基于距离的方法 数据表示为特征向量 三大方法 基于最近邻 基于密度 基于集群 最近邻法 方法: 计算每对数据点之间的距离 有各种方法来定义异常值: 在距离D内具有少于p个相邻点的数据点 距第k个最近邻的距离最大的前n个数据点 与k个最近邻居的平均距离最大的前n个数据点 低维投影中的离群值 在高维空间中,数据稀疏,接近度概念变得无意义 从基于接近度的定义的角度来看,每一点都是一个几乎同样好的异常值 低维投影方法 如果在一些较低维投影中,点是异常值,则其存在于异常低密度的局部区域中 低维投影中的离群值 将每个属性划分为?个等深度区间 每个区间包含记录的分数f = 1/? 考虑通过从k个不同维度中选择网格范围创建的k维多维数据集 如果属性是独立的,我们期望区域包含记录的分数 fk 如果有N个点,我们可以测量立方体D的稀疏度: 负稀疏性表示立方体包含的点数比预期的少 示例 N=100, ? = 5, f = 1/5 = 0.2, N ? f2 = 4 基于密度: LOF方法 对于每个点,计算其局部邻域的密度 计算样本p的局部离群值因子(LOF) ,作为样本p的密度与其最近邻的密度的比率的平均值 异常值是具有最大LOF值的点 p2 ?

文档评论(0)

wnqwwy20 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7014141164000003

1亿VIP精品文档

相关文档