- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
离群点检测概述参考.pdf
EXCHANGEOFEXPERIENCE经验交流
离群点检测概述
◆宋奎勇 寇香霞
摘要:离群点检测是-3前大数据挖掘的研究热点。离群点检测在信用卡欺诈、入侵检测、医疗诊
断、工业损毁检测等领域有着重要应用。
关键词:离群点检测;大数据挖掘
一、离群点(异常)产生原因 黑色对象作为整体形成两个集体离群点,然而,每个黑色对
象个体对于整个数据集并不是离群点。
离群点是与噪声不同,噪声是随机误差引起的值的变化,
o o
o o o O
研究噪声并没有太大价值。而离群点是某种机制下产生的,
这种产生离群点原因是研究者关心的。 。。oo站。o。
O o — o o OO
(1)数据采集或记录错误:数据在采集和记录的过程中, P
o o O o o
o o O
由于一些外在因素导致记录了错误的数据,如在数据采集过 o o O O O
o
o o
程中,由于设备异常导致采集信息不准确甚至错误;在记录
图2集体离群点
过程中,由于记录人员操作不当,导致数据记录不准确甚至
错误。
三、离群点检测方法
(2)数据的自然变异。从统计学的角度。数据集服从某
一种统计分布,如正态分布。在正态分布中,钟型曲线形状 (1)基于统计的方法。基于统计的离群点检测方法假设
由期望和方差决定,大部分数据集中在期望值附近,远离期 数据集中正常数据由某个统计模型产生,即符合一定统计分
望值的数据出现概率低,这些低概率的点最有可能是离群点。 布规律,而违背该规律的数据点就是离群点。这种假设也可
(3)数据来源于不同的类。如果一个数据对象来源于 以通过概率来描述,正常数据是在随机模型的高概率区域发
一个与其他数据对象不同的类,那么它通常会表现的异于其 生的,而离群点数据则是在模型的低概率区域。这种方法是
他数据对象。在入侵检测数据中,黑客在一定时间攻击网络, 最早用于离群点检测的,它高度依赖于给定数据的模型假定。
产生一系列攻击数据包;信用卡数据中,由于信用卡丢失或 (2)基于近邻的方法。基于近邻的离群点检测方法假
被盗等原因,他人使用信用卡引起信用卡消费数据异常。这
文档评论(0)