第六章-异常挖掘.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第六章 异常挖掘 主要内容 异常挖掘及其应用 异常数据挖掘方法简介 基于统计的方法 基于距离的方法 基于密度的方法 基于聚类的方法 未来研究展望 什么是异常(Outlier)? Hawkins的定义:异常是在数据集中偏离大部分数据的数据,使人怀疑这些数据的偏离并非由随机因素产生,而是产生于完全不同的机制。 Weisberg的定义:异常是与数据集中其余部分不服从相同统计模型的数据。 Samuels的定义:异常是足够地不同于数据集中其余部分的数据。 Porkess的定义:异常是远离数据集中其余部分的数据 异常数据具有特殊的意义和很高的实用价值 现有数据挖掘研究大多集中于发现适用于大部分数据的常规模式,在许多应用领域中,异常数据通常作为噪音而忽略,许多数据挖掘算法试图降低或消除异常数据的影响。而在有些应用领域识别异常数据是许多工作的基础和前提,异常数据会带给我们新的视角。 如在欺诈检测中,异常数据可能意味欺诈行为的发生,在入侵检测中异常数据可能意味入侵行为的发生。 异常检测的应用领域 电信、保险、银行中的欺诈检测与风险分析 发现电子商务中的犯罪行为 灾害气象预报 税务局分析不同团体交所得税的记录,发现异常模型和趋势 海关、民航等安检部门推断哪些人可能有嫌疑 海关报关中的价格隐瞒 营销定制:分析花费较小和较高顾客的消费行为 医学研究中发现医疗方案或药品所产生的异常反应 计算机中的入侵检测 运动员的成绩分析 应用异常检测到文本编辑器,可有效减少文字输入的错误 …… 什么是异常挖掘? (Outlier mining,Exception mining) 异常挖掘可以描述为:给定N个数据对象和所期望的异常数据个数,发现明显不同、意外,或与其它数据不一致的前k个对象。 异常挖掘问题由两个子问题构成: (1)如何度量异常; (2)如何有效发现异常。 为什么会出现异常数据? 测量、输入错误或系统运行错误所致 数据内在特性所决定 客体的异常行为所致 由于异常产生的机制是不确定的,异常挖掘算法检测出的“异常数据”是否真正对应实际的异常行为,不是由异常挖掘算法来说明、解释的,只能由领域专家来解释,异常挖掘算法只能为用户提供可疑的数据,以便用户引起特别的注意并最后确定是否真正的异常。对于异常数据的处理方式也取决于应用,并由领域专家决策。 异常数据实例 一个人的年龄为-999就可能是由于程序处理缺省数据设置默认值所造成的 ; 一个公司的高层管理人员的工资明显高于普通员工的工资可能成为异常数据但却是合理的数据(如平安保险公司2007年 5位高管税后收入超过了1000万元); 一部住宅电话的话费由每月200元以内增加到数千元可能就因为被盗打或其它特殊原因所致; 一张信用卡出现明显的高额消费也许是因为是盗用的卡。 异常数据与众不同但具有相对性: 高与矮,疯子与常人。 类似术语: Outlier mining,Exception mining:异常挖掘、离群挖掘、例外挖掘和稀有事件挖掘 。 异常检测方法分类 从使用的主要技术路线角度分类 基于统计的方法 基于距离的方法 基于密度的方法 基于聚类的方法 基于偏差的方法 基于深度的方法 基于小波变换的方法 基于神经网络的方法… 从类标号(正常或异常)可以利用的程度分类 无监督的异常检测方法 在实际情况下,没有提供类标号 有监督的异常检测方法 要求存在异常类和正常类的训练集 半监督的异常检测方法 训练数据包含被标记的正常数据,但是没有关于异常对象的信息 从面向对象的特殊性角度分类 面向高维数据的方法 面向时间序列的方法 面向数据流的方法 面向空间数据的方法 面向Web 数据的方法…… (1)用于定义异常的属性个数 一个对象只有单个属性 一个对象具有多个属性: 可能某个属性异常,某个属性正常 如:对于男生而言, 身高1.6m,体重55kg,这个很正常; 身高1.6m,体重75kg,这个有点异常; 身高1.8m,体重75kg,基本正常。 若对于女生,则三组值可能都不太正常。 所以,定义异常需要指明如何使用多个属性的值确定一个对象是否异常? (2)全局观点和局部观点 一个对象可能相对于所有对象看上去异常,但它相对于它的局部近邻不是异常的 例如:身高1.85m对于一般人群是不常见的,但对于职业篮球运动员不算什么 (3)点的异常程度 某些技术方法是以二元方式来报告对象是否异常的,即:异常或正常 但,这不能反映某些对象比其他对象更加极端异常的基本事实 所以:可以通过定义对象的异常程度来给对象打分 ,如都为异常的情况下,也还有分高和分低的区别。——异常点得分(outlier score) (4)评估 如果可以使用类标号来识别异常和正常数据: 可以

文档评论(0)

199****4744 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7002121022000045

1亿VIP精品文档

相关文档