- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
几种常用的异样数据发掘方法(精)
几种常用的异样数据发掘方法(精)
PAGE / NUMPAGES
几种常用的异样数据发掘方法(精)
第 24 卷第 4 期 2010 年 7 月甘肃结合大学学报 (自然科学版 )
Jul.2010
文章编号 (2010)0420068204
几种常用的异样数据发掘方法
王晓燕
(江苏省宿迁广播电视大学 ,江苏宿迁 223800)
摘 要 :主要议论了常用的异样数据发掘方法 ,简要地介绍了异样数据发掘的定义、功能、方法等 ,详尽的介绍了使用统计、距离、偏离技术、密度和高保持数据
进行异样数据发掘的方法并剖析了其各自的特色 .重点词 :异样数据发掘 ;异样点数
据;方法中图分类号 :TP311.13 文件表记码 :A
前言
在数据发掘的过程中 ,数据库中可能包括一些数据对象 ,它们与数据的一般行为或模型不一致 ,这些数据对象被称为异样点 ,对异样点的查找过程称为异样数据发掘 , 一种 .例外发掘、 .孤立点可能是 ,也可能是与实质对应的存心义的事件 .从知识发现的角度看 ,在某些应用里 ,那些极少发生的事件常常比常常发生的事件更风趣、也
更有研究价值 ,例外的检测能为我们供给比较重要的信息 ,使我们发现一些真切而又出乎料想的知识 .所以 ,异样数据的检测和剖析是一项重要且存心义的研究工作
[1,2].
(2)使用有效的方法发掘异样点数据 .对数
据模式的不一样定义 ,以及数据集的构成不一样 ,会致使不一样种类的异样点数据发掘 ,实质应用中依据 .
利用统计学方法办理异样数据发掘的问题已经有很长的历史了 ,并有一套完好的理
论和方法 .统计学的方法对给定的数据会合假定了一个分布或许概率模型 (比如正态分布 ),而后依据模型采纳不一致性查验来确立异样点数据 .不一致性查验要求预先知道数据集模型参数 (如正态分布 ),分布参数 (如均值、标准差等 )和预期的异样点数量 .
“不一致性查验是怎样进行的 ?”一个统计学的不一致性查验检查两个假定 :一个工作假定 (workinghypothesis)即零假定以及一个代替假定 (alternativehypothesis)即对
立假定 .工作假定是描绘整体性质的一种想法 ,它认为数据由同一分布模型即
H:Oi ∈ F,i=1,2, 不n;一致性查验考证 Oi 与分布 F 的数据对比能否明显地大 (或许
小).假如没有统计上的明显凭证支持拒绝这个假定 ,它就被保存 .依据可用的对于数据的知识 ,不一样的统计量被提出来用作不一致性查验 .假定某个统计量 T 被选择用于不一致性查验 ,对象 Oi 的该统计量的值为 Vi, 则建立分布 T,估量明显性概率
SP(Vi)=Prob(TVi). 假如某个 SP(Vi) 足够的小 ,那么查验结果不是统计明显的 ,则 Oi 是不一致的 ,拒绝工作假定 ,反之 ,不可以拒绝假定 .
异样数据发掘的简介
异样数据发掘有着宽泛的应用 ,如欺骗检测 ,用异样点检测来探测不平常的信誉卡使用或许电服气务 ;展望市场动向 ;在市场剖析中剖析客户的极低或极高花费异样行为 ;或许在医疗剖析中发现对多种治疗方式的不平常的反响等等 .经过对这些数据进行研究 ,发现不正常的行为和模式 ,有着特别重要的意义 .
对异样点数据的发掘能够描绘以下 :给定一个 n 个数据点或对象的会合 ,以及预期的异样点的数量 k,目标是 :发现与节余的数据对比是明显相异的、异样的或许不一致的头 k 个对象 .异样点数据发掘的任务能够分红两个子问题 :
(1)给出已知数据集的异样点数据的定义 ;
收稿日期 :2010205211.
作者简介 :王晓燕 (19802),女,江苏泗洪人 ,宿迁市广播电视大学讲课老师 ,硕士 ,主要从事数据库研究 .
第 4 期王晓燕 :几种常用的异样数据发掘方法
69
对峙假定是描绘整体性质的此外一种想法 ,认为数据 Oi 来自另一个分布模型 G.对峙假定在决定查验能力 (即当 Oi 真的是异样点时工作假定被拒绝的概率 )上是特别重要的 ,它决定了查验的正确性等 .
当前利用统计学研究异样点数占有了一些新的方法 ,如经过剖析统计数据的散度情
况,即数据变异指标 ,来对数据的整体特色有更进一步的认识 ,对数据的分布状况有所认识 ,从而经过数据变异指标来发现数据中的异样点数据 .常用的数据变异指标有极差、四分位数间距、均差、标准差、变异系数等等 ,变异指标的值大表示变异大、分布广 ;值小表示离差小 ,较密集 .
“用统计学的方法检测异样点数据的有效性怎样呢 ?”一个主要的弊端是绝大部分查验是针对单个属性的 ,而很多半据发掘问题要求在多维空间中发现异样点数据 .而
且,,.多状况下 ,分布查验时 ,数据被发现 ,或许察看到的分
文档评论(0)