离群点检测方法.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

离群点检测⽅法

离群点检测

⼀、什么是离群点

离群点是⼀个数据对象,它显著不同于其他数据对象,好像它是被不同的机制产⽣的⼀样。有时也称⾮离群点为“正常数据”,离群点

为“异常数据”。

离群点不同于噪声数据。噪声是被观测变量的随机误差或⽅差。⼀般⽽⾔,噪声在数据分析(包括离群点分析)中不是令⼈感兴趣的。如在

信⽤卡欺诈检测,顾客的购买⾏为可以⽤⼀个随机变量建模。⼀位顾客可能会产⽣某些看上去像“随机误差”或“⽅差”的噪声交易,如买

⼀份较丰盛的午餐,或⽐通常多要了⼀杯咖啡。这种交易不应该视为离群点,否则信⽤卡公司将因验证太多的交易⽽付出沉重代价。因此,

与许多其他数据分析和数据挖掘任务⼀样,应该在离群点检测前就删除噪声。

离群点检测是有趣的,因为怀疑产⽣它们的机制不同于产⽣其他数据的机制。因此,在离群点检测时,重要的是搞清楚为什么检测到的离群

点被某种其他机制产⽣。通常,在其余数据上做各种假设,并且证明检测到的离群点显著违反了这些假设。

⼆、离群点的类型

⼀般⽽⾔,离群点可以分成三类:全局离群点、情境(或条件)离群点和集体离群点。

2.1全局离群点

在给定的数据集中,⼀个数据对象是全局离群点,如果它显著的偏离数据集中的其他对象。全局离群点是最简单的⼀类离群点,⼤部分的离

群点检测⽅法都旨在找出全局离群点。

2.2情境离群点

在给定的数据集中,⼀个数据对象是情境离群点,如果关于对象的特定情境,它显著的偏离其他对象。情境离群点⼜称为条件离群点,因为

它们条件的依赖于选定的情境。⼀般地,在情境离群点检测中,所考虑数据对象的属性划分成两组:

Ÿ情境属性:数据对象的情境属性定义对象的情境。⼀般为静态属性变量,如信⽤卡欺诈检测中,不同年龄、不同地区的⼈消费情况是不

同的,先按照静态属性将⼈群⼤致分类,再检测每⼀类的离群点,会得到更好的结果。

Ÿ⾏为属性:定义对象的特征,并⽤来评估对象关于它所处的情境是否为离群点。在上述例⼦中,⾏为属性可以是消费⾦额,消费频率等

情境离群点分析为⽤户提供了灵活性,因为⽤户可以在不同情境下考察离群点,这在许多应⽤中都是⾮常期望的。

2.3集体离群点

给定⼀个数据集,数据对象的⼀个⼦集形成集体离群点,如果这些对象作为整体显著的偏离整个数据集。如⼀家供应链公司,每天处理数以

千计的订单和出货。如果⼀个订单的出货延误,则可能不是离群点,因为统计表明延误时常发⽣。然⽽,如果有⼀天有100个订单延误,则

必须注意。这100个订单整体来看,形成⼀个离群点,尽管如果单个考虑,它们每个或许都不是离群点。你可能需要更详细地整个考察这些

订单,搞清楚出货问题。

与全局和情境离群点检测不同,在集体离群点检测中,不仅必须考虑个体对象的⾏为,⽽且还要考虑对象组群的⾏为。因此,为了检测集体

离群点,需要关于对象之间联系的背景知识,如对象之间的距离或相似性测量⽅法。

三、离群点检测⽅法

3.1统计学⽅法

离群点检测的统计学⽅法对数据的正常性做假定。假定数据集中的正常对象由⼀个随机过程(⽣成模型)产⽣。因此,正常对象出现在该随

机模型的⾼概率区域中,⽽低概率区域中的对象是离群点。

离群点检测的统计学⽅法的⼀般思想是:学习⼀个拟合给定数据集的⽣成模型,然后识别该模型低概率区域中的对象,把它们作为离群点。

有许多不同⽅法来学习⽣成模型,⼀般⽽⾔,根据如何指定和如何学习模型,离群点检测的统计学⽅法可以划分成两个主要类型:参数⽅法

和⾮参数⽅法。

参数⽅法假定正常的数据对象被⼀个以为参数的参数分布产⽣。该参数分布的概率密度函数给出对象被该分布产⽣的概率。该值越⼩,越可

能是离群点。

⾮参数⽅法并不假定先验统计模型,⽽是试图从输⼊数据确定模型。⾮参数⽅法的例⼦包括直⽅图和核密度估计。

3.1.1参数⽅法

1、基于正态分布的⼀元离群点检测

假定数据集由⼀个正态分布产⽣,然后,可以由输⼊数据学习正态分布的参数,并把低概率的点识别为离群点。

在正态分布的假定下,区域包含99.7%的数据,包含95.4%的数据,包含68.3%的数据。视具体情况⽽定,将其区域外的数据视为

离群点。

这种直截了当的统计学离群点检测⽅法也可以⽤于可视化。例如盒图⽅法使⽤五数概况绘制⼀元输⼊数据:最⼩的⾮离群点值

(Min)、第⼀个四分位数(Q1)、中位数(Q2)、第三个四分位数(Q3)和最⼤的⾮离群点值(Max)。

四分位数极差(IQR)定义为Q3-Q1。⽐Q1⼩1.5倍的IQR或者⽐Q3⼤1.5倍的IQR的任何对象都视为离群点,因为Q1-

文档评论(0)

151****5730 + 关注
实名认证
文档贡献者

硕士毕业生

1亿VIP精品文档

相关文档