离群点检测方法.pdfVIP

下载本文档

26
0
约7.96千字
约 6页
2024-01-08 发布于宁夏
举报
版权申诉

离群点检测方法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

离群点检测⽅法

离群点检测

⼀、什么是离群点

离群点是⼀个数据对象，它显著不同于其他数据对象，好像它是被不同的机制产⽣的⼀样。有时也称⾮离群点为“正常数据”，离群点

为“异常数据”。

离群点不同于噪声数据。噪声是被观测变量的随机误差或⽅差。⼀般⽽⾔，噪声在数据分析（包括离群点分析）中不是令⼈感兴趣的。如在

信⽤卡欺诈检测，顾客的购买⾏为可以⽤⼀个随机变量建模。⼀位顾客可能会产⽣某些看上去像“随机误差”或“⽅差”的噪声交易，如买

⼀份较丰盛的午餐，或⽐通常多要了⼀杯咖啡。这种交易不应该视为离群点，否则信⽤卡公司将因验证太多的交易⽽付出沉重代价。因此，

与许多其他数据分析和数据挖掘任务⼀样，应该在离群点检测前就删除噪声。

离群点检测是有趣的，因为怀疑产⽣它们的机制不同于产⽣其他数据的机制。因此，在离群点检测时，重要的是搞清楚为什么检测到的离群

点被某种其他机制产⽣。通常，在其余数据上做各种假设，并且证明检测到的离群点显著违反了这些假设。

⼆、离群点的类型

⼀般⽽⾔，离群点可以分成三类：全局离群点、情境（或条件）离群点和集体离群点。

2.1全局离群点

在给定的数据集中，⼀个数据对象是全局离群点，如果它显著的偏离数据集中的其他对象。全局离群点是最简单的⼀类离群点，⼤部分的离

群点检测⽅法都旨在找出全局离群点。

2.2情境离群点

在给定的数据集中，⼀个数据对象是情境离群点，如果关于对象的特定情境，它显著的偏离其他对象。情境离群点⼜称为条件离群点，因为

它们条件的依赖于选定的情境。⼀般地，在情境离群点检测中，所考虑数据对象的属性划分成两组：

Ÿ情境属性：数据对象的情境属性定义对象的情境。⼀般为静态属性变量，如信⽤卡欺诈检测中，不同年龄、不同地区的⼈消费情况是不

同的，先按照静态属性将⼈群⼤致分类，再检测每⼀类的离群点，会得到更好的结果。

Ÿ⾏为属性：定义对象的特征，并⽤来评估对象关于它所处的情境是否为离群点。在上述例⼦中，⾏为属性可以是消费⾦额，消费频率等

情境离群点分析为⽤户提供了灵活性，因为⽤户可以在不同情境下考察离群点，这在许多应⽤中都是⾮常期望的。

2.3集体离群点

给定⼀个数据集，数据对象的⼀个⼦集形成集体离群点，如果这些对象作为整体显著的偏离整个数据集。如⼀家供应链公司，每天处理数以

千计的订单和出货。如果⼀个订单的出货延误，则可能不是离群点，因为统计表明延误时常发⽣。然⽽，如果有⼀天有100个订单延误，则

必须注意。这100个订单整体来看，形成⼀个离群点，尽管如果单个考虑，它们每个或许都不是离群点。你可能需要更详细地整个考察这些

订单，搞清楚出货问题。

与全局和情境离群点检测不同，在集体离群点检测中，不仅必须考虑个体对象的⾏为，⽽且还要考虑对象组群的⾏为。因此，为了检测集体

离群点，需要关于对象之间联系的背景知识，如对象之间的距离或相似性测量⽅法。

三、离群点检测⽅法

3.1统计学⽅法

离群点检测的统计学⽅法对数据的正常性做假定。假定数据集中的正常对象由⼀个随机过程（⽣成模型）产⽣。因此，正常对象出现在该随

机模型的⾼概率区域中，⽽低概率区域中的对象是离群点。

离群点检测的统计学⽅法的⼀般思想是：学习⼀个拟合给定数据集的⽣成模型，然后识别该模型低概率区域中的对象，把它们作为离群点。

有许多不同⽅法来学习⽣成模型，⼀般⽽⾔，根据如何指定和如何学习模型，离群点检测的统计学⽅法可以划分成两个主要类型：参数⽅法

和⾮参数⽅法。

参数⽅法假定正常的数据对象被⼀个以为参数的参数分布产⽣。该参数分布的概率密度函数给出对象被该分布产⽣的概率。该值越⼩，越可

能是离群点。

⾮参数⽅法并不假定先验统计模型，⽽是试图从输⼊数据确定模型。⾮参数⽅法的例⼦包括直⽅图和核密度估计。

3.1.1参数⽅法

1、基于正态分布的⼀元离群点检测

假定数据集由⼀个正态分布产⽣，然后，可以由输⼊数据学习正态分布的参数，并把低概率的点识别为离群点。

在正态分布的假定下，区域包含99.7%的数据，包含95.4%的数据，包含68.3%的数据。视具体情况⽽定，将其区域外的数据视为

离群点。

这种直截了当的统计学离群点检测⽅法也可以⽤于可视化。例如盒图⽅法使⽤五数概况绘制⼀元输⼊数据：最⼩的⾮离群点值

（Min）、第⼀个四分位数（Q1）、中位数（Q2）、第三个四分位数（Q3）和最⼤的⾮离群点值（Max）。

四分位数极差（IQR）定义为Q3-Q1。⽐Q1⼩1.5倍的IQR或者⽐Q3⼤1.5倍的IQR的任何对象都视为离群点，因为Q1-

您可能关注的文档

文档评论（0）

151****5730 + 关注: 实名认证

文档贡献者

硕士毕业生

咨询Ta 进入空间

1亿VIP精品文档

更多 >

离群点检测方法.pdfVIP