离群点挖掘学习.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主要内容;什么是离群点(Outlier)?;离群点的特殊意义和实用价值 ;离群点检测的应用领域;离群点挖掘(Outlier mining);为什么会出现离群点?;离群点挖掘中需要处理的几个问题 ;离群点实例;;离群点检测方法分类;从使用的主要技术路线角度分类;从类标号(正常或异常)利用的程度分类;离群点检测中需要处理的问题;(1)用于定义离群点的属性个数;(2)全局观点和局部观点;(3)点的离群程度;离群点检测的挑战和前提;基于统计的离群点检测;基于统计的离群点检测;基于统计的离群点检测;离群点的概率定义;实例:检测一元正态分布中的离群点;c;定义;如果(正常对象的)一个感兴趣的属性的分布是具有均值μ和标准差σ的正态分布,即 分布,则可以通过变换z=(x-μ)/σ转换为标准正态分布N(0,1),通常μ和σ是未知的,可以通过样本均值和样本标准差来估计。 实践中,当观测值很多时,这种估计的效果很好;另一方面,由概率统计中的大数定律可知,在大样本的情况下可以用正态分布近似其它分布。;在该图中, 中心线μ是观测值的预测值, μ 3σ 对应上下控制线, μ 2σ对应上、下警告线。根据3σ原则,99.73%的观测值将落在上下控制线的区间内,仅有0.27%的观测值落在此区间之外。;对于观测样本X: (1)如此点在上、下警告线之间区域内,则测定过程处于控制状态,生产过程或样本分析结果有效; (2)如果此点超出上、下警告线,但仍在上、下控制线之间的区域内,提示质量开始变劣,可能存在“失控”倾向,应进行初步检查,并采取相应的校正措施; (3)若此点落在上、下控制线之外,表示生产或测定过程“失控,生产的是废品或观测样本无效。应立即检查原因,予以纠正。;基于统计的离群点检测方法的优缺点;基于距离的离群点检测;基于距离的离群点检测;基于距离方法的两种不同策略;到k-最近邻的距离的计算;; 基于距离的离群点检测算法;选择合适的离群因子阈值;例6-1;例6-1;基于距离的离群点检测 ;基于距离的离群检测的优缺点;基于相对密度的离群点检测;;定义6-4 (1) 对象的局部邻域密度 (2) 相对密度 其中, 是不包含x的k-最近邻的集合, 是该集合的大小,y是一个最近邻。;相对密度离群点检测算法 ;例6-3:给定二维数据集,表6-2给出了点的坐标,可视化的图形如图6-7所示(对象间的距离采用曼哈顿(Manhattan)距离计算)。;(1) 对于P4,k最近邻邻域包含两个对象: ;(2)对于k=2 P4的k最近邻邻域为 ,k最近邻距离均值为1。 P15的k最近邻邻域为 ,k最近邻距离均值为1.5。 经过比较可以看出,点P15的离群程度要高。;例6-4 模拟图6-8中类似数据,K取2,3,5时,以表格方式给出所有点的局部邻域密度及相对密度、基于距离的离群因子。(采用欧式距离);基于聚类的离群点检测;;;基于对象离群因子的方法;基于对象离群因子的方法;引理 如果随机变量 服从正态分布 ,则有:;两阶段离群点挖掘方法TOD描述如下: 第一步,对数据集D进行采用一趟聚类算法进行聚类,得到聚类结果 第二步,计算数据集D中所有对象p的离群因子OF3(p),及其平均值Ave_OF和标准差Dev_OF,满足条件: 的对象判定为离群点。 通常取 ;例6-5 基于聚类的离群点检测示例1 对于图所示的二维数据集,比较点P1(6,8),P2(5,2),哪个更有可能成为离群点 。假设数据集经过聚类后得到聚类结果为C={C1、C2、C3},图中红色圆圈标 注,三个簇的质心分别为:C1(5.5,7.5)、C2(5,2)、C3(1.75,2.25),试计算所有对 象的离群因子。 ;例6-5 基于聚类的离群点检测示例1 解答:根据定义6-6,公式 对于P1点有: 对于P2有: 可见,点P1较P2更可能成为离群点。 ;例6-5 基于聚类的离群点检测示例1 同理可求得所有对象的离群因子,结果如表所示。 ;基于簇的离群因子的方法;定义6-7;定义6-8;基于聚类的离群挖掘方法(CBOD);CBOD算法描述如下:;例6-6 基于聚类的离群点检测示例2;例6-6 基于聚类的离群点检测示例2;基于聚类的动态数据的离群点检测 基本思想如下:;基于聚类的动态数据的离群点检测;(2) 模型评估;(3) 模型更新;6.6 离群点挖掘方法的评估;离群点检测方法准确性的两个指标;例6-7 采用基于聚类的离群点挖掘方法处理UCI中KDDCUP99 数据集;(1)模型建立;(2) 模型检验;(3) 模型更新效果;本章小结;;

文档评论(0)

kuailelaifenxian + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体太仓市沙溪镇牛文库商务信息咨询服务部
IP属地上海
统一社会信用代码/组织机构代码
92320585MA1WRHUU8N

1亿VIP精品文档

相关文档