几种常用异常数据挖掘方法(精).docVIP

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
几种常用的异样数据发掘方法(精) 几种常用的异样数据发掘方法(精) PAGE / NUMPAGES 几种常用的异样数据发掘方法(精) 第 24 卷第 4 期 2010 年 7 月甘肃结合大学学报 (自然科学版 ) Jul.2010 文章编号 (2010)0420068204 几种常用的异样数据发掘方法 王晓燕 (江苏省宿迁广播电视大学 ,江苏宿迁 223800) 摘 要 :主要议论了常用的异样数据发掘方法 ,简要地介绍了异样数据发掘的定义、功能、方法等 ,详尽的介绍了使用统计、距离、偏离技术、密度和高保持数据 进行异样数据发掘的方法并剖析了其各自的特色 .重点词 :异样数据发掘 ;异样点数 据;方法中图分类号 :TP311.13 文件表记码 :A 前言 在数据发掘的过程中 ,数据库中可能包括一些数据对象 ,它们与数据的一般行为或模型不一致 ,这些数据对象被称为异样点 ,对异样点的查找过程称为异样数据发掘 , 一种 .例外发掘、 .孤立点可能是 ,也可能是与实质对应的存心义的事件 .从知识发现的角度看 ,在某些应用里 ,那些极少发生的事件常常比常常发生的事件更风趣、也 更有研究价值 ,例外的检测能为我们供给比较重要的信息 ,使我们发现一些真切而又出乎料想的知识 .所以 ,异样数据的检测和剖析是一项重要且存心义的研究工作 [1,2]. (2)使用有效的方法发掘异样点数据 .对数 据模式的不一样定义 ,以及数据集的构成不一样 ,会致使不一样种类的异样点数据发掘 ,实质应用中依据 . 利用统计学方法办理异样数据发掘的问题已经有很长的历史了 ,并有一套完好的理 论和方法 .统计学的方法对给定的数据会合假定了一个分布或许概率模型 (比如正态分布 ),而后依据模型采纳不一致性查验来确立异样点数据 .不一致性查验要求预先知道数据集模型参数 (如正态分布 ),分布参数 (如均值、标准差等 )和预期的异样点数量 . “不一致性查验是怎样进行的 ?”一个统计学的不一致性查验检查两个假定 :一个工作假定 (workinghypothesis)即零假定以及一个代替假定 (alternativehypothesis)即对 立假定 .工作假定是描绘整体性质的一种想法 ,它认为数据由同一分布模型即 H:Oi ∈ F,i=1,2, 不n;一致性查验考证 Oi 与分布 F 的数据对比能否明显地大 (或许 小).假如没有统计上的明显凭证支持拒绝这个假定 ,它就被保存 .依据可用的对于数据的知识 ,不一样的统计量被提出来用作不一致性查验 .假定某个统计量 T 被选择用于不一致性查验 ,对象 Oi 的该统计量的值为 Vi, 则建立分布 T,估量明显性概率 SP(Vi)=Prob(TVi). 假如某个 SP(Vi) 足够的小 ,那么查验结果不是统计明显的 ,则 Oi 是不一致的 ,拒绝工作假定 ,反之 ,不可以拒绝假定 . 异样数据发掘的简介 异样数据发掘有着宽泛的应用 ,如欺骗检测 ,用异样点检测来探测不平常的信誉卡使用或许电服气务 ;展望市场动向 ;在市场剖析中剖析客户的极低或极高花费异样行为 ;或许在医疗剖析中发现对多种治疗方式的不平常的反响等等 .经过对这些数据进行研究 ,发现不正常的行为和模式 ,有着特别重要的意义 . 对异样点数据的发掘能够描绘以下 :给定一个 n 个数据点或对象的会合 ,以及预期的异样点的数量 k,目标是 :发现与节余的数据对比是明显相异的、异样的或许不一致的头 k 个对象 .异样点数据发掘的任务能够分红两个子问题 : (1)给出已知数据集的异样点数据的定义 ; 收稿日期 :2010205211. 作者简介 :王晓燕 (19802),女,江苏泗洪人 ,宿迁市广播电视大学讲课老师 ,硕士 ,主要从事数据库研究 . 第 4 期王晓燕 :几种常用的异样数据发掘方法 69 对峙假定是描绘整体性质的此外一种想法 ,认为数据 Oi 来自另一个分布模型 G.对峙假定在决定查验能力 (即当 Oi 真的是异样点时工作假定被拒绝的概率 )上是特别重要的 ,它决定了查验的正确性等 . 当前利用统计学研究异样点数占有了一些新的方法 ,如经过剖析统计数据的散度情 况,即数据变异指标 ,来对数据的整体特色有更进一步的认识 ,对数据的分布状况有所认识 ,从而经过数据变异指标来发现数据中的异样点数据 .常用的数据变异指标有极差、四分位数间距、均差、标准差、变异系数等等 ,变异指标的值大表示变异大、分布广 ;值小表示离差小 ,较密集 . “用统计学的方法检测异样点数据的有效性怎样呢 ?”一个主要的弊端是绝大部分查验是针对单个属性的 ,而很多半据发掘问题要求在多维空间中发现异样点数据 .而 且,,.多状况下 ,分布查验时 ,数据被发现 ,或许察看到的分

文档评论(0)

q96tcntzow + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档