- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
9.2 离群点检测 21 ? 结论 ? LOF 算法计算的离群度不在一个通常便于理解的范围 [0,1] ,而是一 个大于 1 的数,并且没有固定的范围。而且数据集通常数量比较大, 内部结构复杂, LOF 极有可能因为取到的近邻点属于不同数据密度 的聚类簇,使得计算数据点的近邻平均数据密度产生偏差,而得出 与实际差别较大甚至相反的结果。 ? 优点 ? 通过基于密度的局部离群点检测就能在样本空间数据分布不均匀的 情况下也可以准确发现离群点。 9.2 离群点检测 3. 基于聚类的方法 : 22 ? 该对象属于某个簇吗?如果不,则它被识别为离群点。 ? 该对象与最近的簇之间的距离很远吗?如果是,则它是离群点。 ? 该对象是小簇或稀疏簇的一部分吗?如果是,则该簇中的所有对象都是离群点。 9.2 离群点检测 基与聚类的离群点检测挖掘方法如下: 23 9.2 离群点检测 基与聚类的离群点检测挖掘方法如下: ? 两阶段离群点挖掘方法如下: 24 ① 对数据集 D 采用一趟聚类算法进行聚类,得到聚类结果 C={C1 , C2 ,…, Ck} ② 计算数据集 D 中所有对象 p 的离群因子 OF1(p) ,及其平均值 Ave_OF 和标准差 Dev_OF ,满足条件: 9.2 离群点检测 基与聚类的离群点检测挖掘方法如下: 25 ? 例 9 . 2 基于对象的离群因子法 ? 对于图 9-5 所示的二维数据集,比较点 p 1 (6 , 8) , p 2 (5 , 2) ,哪个更有可能成为 离群点。假设数据集经过聚类后得到聚类结果为 C ={ C 1 , C 2 , C 3 } ,图中红色圆 圈标注,三个簇的质心分别为: C 1 (5.5 , 7.5) 、 C 2 (5 , 2) 、 C 3 (1.75 , 2.25) ,试 计算所有对象的离群因子 。 图 9-5 基于聚类的离群点检测二维数据集 天津大学计算机科学与技术学院 喻梅 数据挖掘 2 目录 CONTENTS 1.5 9.1 9.2 离群点 的定义与类型 离群点检测 Chapter 9.1 离群点定义与类型 9.1 离群点定义与类型 什么是离群点: ? 离群点:是一个数据对象,它显著不同于其他数据对,好像它是被不同的机制产生的一 样。 ? 例如 : 不同寻常的信用卡交易 ? 离群点不同于噪声数据 ? 噪声数据是被观测变量的随机误差或方差 ? 噪声数据应在离群点检测前被删除 ? 离群点产生原因: ? 计算的误差或者操作的错误所致 ? 数据本身的可变性或弹性所致 图 9-1 区域 O 中的对象为离群点 4 9.1 离群点定义与类型 离群点的类型: 三类 : 全局离群点 , 条件离群点和集体离群点。 全局离群点 ( 或点异常 ) ? 如果一个数据对象显著的偏离数据集的其余部分,则这个数据对象为全局离群点 。 条件离群点 ? 一个数据对象,如果关于对象的特定情境,它显著偏离其他对象。 – 例如: 多伦多的温度为 28 。 C ,这是离群点吗? ( 取决于冬天还是夏天) – 数据对象的属性划分为两组。 ? 情境属性 : 定义对象的情境,例如, 时间和地点。 ? 行为属性 : 定义对象的特征 , 并用来评估对象关于它所处的情境是否为离群点。 例如,温度。 5 9.1 离群点定义与类型 ? 集体离群点 ? 给定一个数据集,数据对象的一个子集作为整体显著偏离整个数据集, 数据对象的这个子集称为集体离群点。 ? 应用:在入侵检测时, 多台计算机不断地相互发送拒绝服务包,则它们 可以视为集体离群点,所涉及的计算机可能受到攻击。 ? 数据集可能有多种类型的离群点。 6 ? 一个对象可能属于多种类型的离群点。 图 9-2 黑色对象形成集体离群点 Chapter 9.2 离群点检测 9.2 离群点检测 8 – 离群点的检测方法有很多,每种方法在检测时,都会对正常数 据对象或离群点做出假设。从这个假设的角度考虑,离群点检 测方法可以分为 : ? 基于统计学的离群点检测; ? 基于近邻的离群点检测; ? 基于聚类的离群点检测 ; ? 基于分类的局部离群点检测。 9.2 离群点检测 1. 统计学方法 : 基于统计分布的检测方法是为数据集构建一个概率统计模型(例如 正态、泊松、二项式分
您可能关注的文档
最近下载
- 家政讲师师资培训课件.ppt
- 细菌群体感应信号分子及其检测方法.docx VIP
- 【基于企业作业成本法的企业成本控制研究的国内外文献综述4000字】.docx VIP
- 2025年中级注册安全工程师之安全生产技术基础题库(考试直接用).docx VIP
- 10.2捍卫国家利益课件.pptx VIP
- 2025年中级注册安全工程师之安全生产技术基础题库及参考答案【考试直接用】.docx VIP
- 人教版物理九年级上册《第十六章 电压 电阻》大单元整体教学设计.docx
- 中文书名《我的姐姐罗莎琳·富兰克林》.doc VIP
- 2025年中级注册安全工程师之安全生产技术基础考试题库附参考答案【考试直接用】.docx VIP
- 【MOOC期末】《中国马克思主义与当代》(北京科技大学)期末慕课答案.docx VIP
文档评论(0)