- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主要内容;什么是离群点(Outlier)?;离群点的特殊意义和实用价值 ;离群点检测的应用领域;离群点挖掘(Outlier mining);为什么会出现离群点?;离群点挖掘中需要处理的几个问题;离群点实例;;离群点检测方法分类;从使用的主要技术路线角度分类;从类标号(正常或异常)利用的程度分类;离群点检测中需要处理的问题;(1)用于定义离群点的属性个数;(2)全局观点和局部观点;(3)点的离群程度;离群点检测的挑战和前提;基于统计的离群点检测;基于统计的离群点检测;基于统计的离群点检测;离群点的概率定义;实例:检测一元正态分布中的离群点;c;定义;如果(正常对象的)一个感兴趣的属性的分布是具有均值μ和标准差σ的正态分布,即 分布,则可以通过变换z=(x-μ)/σ转换为标准正态分布N(0,1),通常μ和σ是未知的,可以通过样本均值和样本标准差来估计。
实践中,当观测值很多时,这种估计的效果很好;另一方面,由概率统计中的大数定律可知,在大样本的情况下可以用正态分布近似其它分布。;在该图中, 中心线μ是观测值的预测值, μ 3σ 对应上下控制线, μ 2σ对应上、下警告线。根据3σ原则,99.73%的观测值将落在上下控制线的区间内,仅有0.27%的观测值落在此区间之外。;对于观测样本X:
(1)如此点在上、下警告线之间区域内,则测定过程处于控制状态,生产过程或样本分析结果有效;
(2)如果此点超出上、下警告线,但仍在上、下控制线之间的区域内,提示质量开始变劣,可能存在“失控”倾向,应进行初步检查,并采取相应的校正措施;
(3)若此点落在上、下控制线之外,表示生产或测定过程“失控,生产的是废品或观测样本无效。应立即检查原因,予以纠正。;基于统计的离群点检测方法的优缺点;基于距离的离群点检测;基于距离的离群点检测;基于距离方法的两种不同策略;到k-最近邻的距离的计算;; 基于距离的离群点检测算法;选择合适的离群因子阈值;例6-1;例6-1;基于距离的离群点检测 ;基于距离的离群检测的优缺点;基于相对密度的离群点检测;;定义6-4 (1) 对象的局部邻域密度
(2) 相对密度
其中, 是不包含x的k-最近邻的集合, 是该集合的大小,y是一个最近邻。;相对密度离群点检测算法 ;例6-3:给定二维数据集,表6-2给出了点的坐标,可视化的图形如图6-7所示(对象间的距离采用曼哈顿(Manhattan)距离计算)。;(1) 对于P4,k最近邻邻域包含两个对象: ;(2)对于k=2
P4的k最近邻邻域为 ,k最近邻距离均值为1。
P15的k最近邻邻域为 ,k最近邻距离均值为1.5。
经过比较可以看出,点P15的离群程度要高。;例6-4 模拟图6-8中类似数据,K取2,3,5时,以表格方式给出所有点的局部邻域密度及相对密度、基于距离的离群因子。(采用欧式距离);基于聚类的离群点检测;;;基于对象离群因子的方法;基于对象离群因子的方法;引理 如果随机变量 服从正态分布 ,则有:;两阶段离群点挖掘方法TOD描述如下:
第一步,对数据集D进行采用一趟聚类算法进行聚类,得到聚类结果
第二步,计算数据集D中所有对象p的离群因子OF3(p),及其平均值Ave_OF和标准差Dev_OF,满足条件:
的对象判定为离群点。
通常取 ;例6-5 基于聚类的离群点检测示例1
对于图所示的二维数据集,比较点P1(6,8),P2(5,2),哪个更有可能成为离群点
。假设数据集经过聚类后得到聚类结果为C={C1、C2、C3},图中红色圆圈标
注,三个簇的质心分别为:C1(5.5,7.5)、C2(5,2)、C3(1.75,2.25),试计算所有对
象的离群因子。
;例6-5 基于聚类的离群点检测示例1
解答:根据定义6-6,公式
对于P1点有:
对于P2有:
可见,点P1较P2更可能成为离群点。
;例6-5 基于聚类的离群点检测示例1
同理可求得所有对象的离群因子,结果如表所示。
;基于簇的离群因子的方法;定义6-7;定义6-8;基于聚类的离群挖掘方法(CBOD);CBOD算法描述如下:;例6-6 基于聚类的离群点检测示例2;例6-6 基于聚类的离群点检测示例2;基于聚类的动态数据的离群点检测 基本思想如下:;基于聚类的动态数据的离群点检测;(2) 模型评估;(3) 模型更新;6.6 离群点挖掘方法的评估;离群点检测方法准确性的两个指标;例6-7 采用基于聚类的离群点挖掘方法处理UCI中KDDCUP99 数据集;(1)模型建立;(2) 模型检验;(3) 模型更新效果;本章小结;;
您可能关注的文档
最近下载
- 数据通信技术 子网掩码、子网划分、网关 子网掩码与子网划分.ppt VIP
- 柑橘新品种引种表现及栽培技术要点(共字).doc VIP
- 家校社协同育人新范式实施策略.docx
- 美甲店的前景及可行性研究报告.docx
- 班主任计划和总结及班主任手册.doc VIP
- T_CFIAS 3040—2025(混合型饲料添加剂25-羟基胆钙化醇(25-羟基维生素D3)).pdf
- 医疗器械(耗材)项目投标服务实施方案(技术方案).pdf VIP
- 建设工程工程量清单计价规范(GB 50500-2024).docx VIP
- 西门子保护说明书7SJ686用户手册.pdf VIP
- 5.1.3.1生物圈(第一课时) 课件--人教版(2024)生物八年级上册.pptx VIP
原创力文档


文档评论(0)