- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
离群点检测⽅法
离群点检测
⼀、什么是离群点
离群点是⼀个数据对象,它显著不同于其他数据对象,好像它是被不同的机制产⽣的⼀样。有时也称⾮离群点为“正常数据”,离群点
为“异常数据”。
离群点不同于噪声数据。噪声是被观测变量的随机误差或⽅差。⼀般⽽⾔,噪声在数据分析(包括离群点分析)中不是令⼈感兴趣的。如在
信⽤卡欺诈检测,顾客的购买⾏为可以⽤⼀个随机变量建模。⼀位顾客可能会产⽣某些看上去像“随机误差”或“⽅差”的噪声交易,如买
⼀份较丰盛的午餐,或⽐通常多要了⼀杯咖啡。这种交易不应该视为离群点,否则信⽤卡公司将因验证太多的交易⽽付出沉重代价。因此,
与许多其他数据分析和数据挖掘任务⼀样,应该在离群点检测前就删除噪声。
离群点检测是有趣的,因为怀疑产⽣它们的机制不同于产⽣其他数据的机制。因此,在离群点检测时,重要的是搞清楚为什么检测到的离群
点被某种其他机制产⽣。通常,在其余数据上做各种假设,并且证明检测到的离群点显著违反了这些假设。
⼆、离群点的类型
⼀般⽽⾔,离群点可以分成三类:全局离群点、情境(或条件)离群点和集体离群点。
2.1全局离群点
在给定的数据集中,⼀个数据对象是全局离群点,如果它显著的偏离数据集中的其他对象。全局离群点是最简单的⼀类离群点,⼤部分的离
群点检测⽅法都旨在找出全局离群点。
2.2情境离群点
在给定的数据集中,⼀个数据对象是情境离群点,如果关于对象的特定情境,它显著的偏离其他对象。情境离群点⼜称为条件离群点,因为
它们条件的依赖于选定的情境。⼀般地,在情境离群点检测中,所考虑数据对象的属性划分成两组:
Ÿ情境属性:数据对象的情境属性定义对象的情境。⼀般为静态属性变量,如信⽤卡欺诈检测中,不同年龄、不同地区的⼈消费情况是不
同的,先按照静态属性将⼈群⼤致分类,再检测每⼀类的离群点,会得到更好的结果。
Ÿ⾏为属性:定义对象的特征,并⽤来评估对象关于它所处的情境是否为离群点。在上述例⼦中,⾏为属性可以是消费⾦额,消费频率等
情境离群点分析为⽤户提供了灵活性,因为⽤户可以在不同情境下考察离群点,这在许多应⽤中都是⾮常期望的。
2.3集体离群点
给定⼀个数据集,数据对象的⼀个⼦集形成集体离群点,如果这些对象作为整体显著的偏离整个数据集。如⼀家供应链公司,每天处理数以
千计的订单和出货。如果⼀个订单的出货延误,则可能不是离群点,因为统计表明延误时常发⽣。然⽽,如果有⼀天有100个订单延误,则
必须注意。这100个订单整体来看,形成⼀个离群点,尽管如果单个考虑,它们每个或许都不是离群点。你可能需要更详细地整个考察这些
订单,搞清楚出货问题。
与全局和情境离群点检测不同,在集体离群点检测中,不仅必须考虑个体对象的⾏为,⽽且还要考虑对象组群的⾏为。因此,为了检测集体
离群点,需要关于对象之间联系的背景知识,如对象之间的距离或相似性测量⽅法。
三、离群点检测⽅法
3.1统计学⽅法
离群点检测的统计学⽅法对数据的正常性做假定。假定数据集中的正常对象由⼀个随机过程(⽣成模型)产⽣。因此,正常对象出现在该随
机模型的⾼概率区域中,⽽低概率区域中的对象是离群点。
离群点检测的统计学⽅法的⼀般思想是:学习⼀个拟合给定数据集的⽣成模型,然后识别该模型低概率区域中的对象,把它们作为离群点。
有许多不同⽅法来学习⽣成模型,⼀般⽽⾔,根据如何指定和如何学习模型,离群点检测的统计学⽅法可以划分成两个主要类型:参数⽅法
和⾮参数⽅法。
参数⽅法假定正常的数据对象被⼀个以为参数的参数分布产⽣。该参数分布的概率密度函数给出对象被该分布产⽣的概率。该值越⼩,越可
能是离群点。
⾮参数⽅法并不假定先验统计模型,⽽是试图从输⼊数据确定模型。⾮参数⽅法的例⼦包括直⽅图和核密度估计。
3.1.1参数⽅法
1、基于正态分布的⼀元离群点检测
假定数据集由⼀个正态分布产⽣,然后,可以由输⼊数据学习正态分布的参数,并把低概率的点识别为离群点。
在正态分布的假定下,区域包含99.7%的数据,包含95.4%的数据,包含68.3%的数据。视具体情况⽽定,将其区域外的数据视为
离群点。
这种直截了当的统计学离群点检测⽅法也可以⽤于可视化。例如盒图⽅法使⽤五数概况绘制⼀元输⼊数据:最⼩的⾮离群点值
(Min)、第⼀个四分位数(Q1)、中位数(Q2)、第三个四分位数(Q3)和最⼤的⾮离群点值(Max)。
四分位数极差(IQR)定义为Q3-Q1。⽐Q1⼩1.5倍的IQR或者⽐Q3⼤1.5倍的IQR的任何对象都视为离群点,因为Q1-
您可能关注的文档
最近下载
- Unit 4 My Family Lesson 1 My Family Photo 说课稿2024-2025学年冀教版英语七年级上册.docx VIP
- 《工科数学分析》期末考试试题(A卷)参考评分标准.doc VIP
- 《船舶修造气象风险等级划分及应对》DB3310T 123-2025.docx VIP
- 无机保温砂浆专项施工方案(屋面_外墙)方案(1).doc
- 化学工艺概论题库(含答案).pdf VIP
- 2025 年黑龙江中职单招考试英语全真模拟卷.docx VIP
- 印刷厂安全培训课件.ppt VIP
- TOGAF基础级中文习题.docx VIP
- 研读《创新实干促发展》心得体会.docx VIP
- 《人工智能应用概论(第2版)》PPT完整全套教学课件.pptx
原创力文档


文档评论(0)