异常值处理.ppt

  1. 1、本文档共78页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
异常值处理

异常值处理;1.数据的标准化概述;数据的标准化方法;② 标准差标准化,即 由这种标准化方法所得到的新数据,各要素的平均值为0,标准差为1,即有; ③ 极大值标准化,即 经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1。 ④ 极差的标准化,即 经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间。;2. 缺失数据的处理;2.2 缺失数据预处理思想;(一)个案剔除法(Listwise Deletion);(二)均值替换法(Mean Imputation);(三)热卡填充法(Hotdecking);(四)回归替换法(Regression Imputation);(五)多重替代法(Multiple Imputation);异常数据处理;什么是异常(Outlier)?;异常数据具有特殊的意义和很高的实用价值 ;异常检测的应用领域;什么是异常挖掘? (Outlier mining,Exception mining);为什么会出现异常数据?;异常数据实例;;异常检测方法分类;从使用的主要技术路线角度分类;从类标号(正常或异常)可以利用的程度分类;从面向对象的特殊性角度分类;异常检测中需要处理的几个问题;(1)用于定义异常的属性个数;(2)全局观点和局部观点;(3)点的异常程度;(4)评估;(5)有效性;异常检测的挑战和前提;基于统计的异常检测;基于统计的异常检测;基于统计的异常检测;异常点的概率定义;实例:检测一元正态分布中的异常点;;对某一长度L测量10次,其数据如下:;定义;基于统计方法异常点检测技术的优缺点;基于距离的异常检测;基于距离的异常检测;基于距离的方法有两种不同的策略 ;到k-最近邻的距离的计算;基于距离的异常点检测 例1;基于距离的异常点检测 例2;基于距离的异常检测的优缺点;不能处理不同密度区域的数据集;基于密度的异常检测;*;使用相对密度的异常点检测(LOF);定义3 (1) 对象的局部邻域密度 (2) 相对密度 其中, 是包含x的k-最近邻的集合, 是该集合的大小,y是一个最近邻。;相对密度异常点检测算法 ;基于密度的异常检测的不足;基于聚类的异常检测;*;*;基于对象异常因子的方法(1);基于对象异常因子的方法(2);基于对象异常因子的方法(3);;;基于簇的异常因子的方法;定义;定义;定义6-8;定理;;基于聚类的异常挖掘方法(CBOD);CBOD算法描述如下:;CBOD算法的优点;CBOD算法参数的影响及选择;基于聚类的动态数据的异常检测 ;基本思想如下:;基于聚类的动态数据的异常检测;(2) 模型评估;(3) 模型更新;异常挖掘的未来研究展望

文档评论(0)

rovend + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档