数据挖掘——第九章离群点挖掘.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
c N(0,1)的α 1 0.3173 1.5 0.1336 2 0.0455 2.5 0.0124 3 0.0027 3.5 0.0005 4 0.0001 来自N(0,1)分布的对象(值)出现在分布尾部的机会很小。 例如,对象落在 3标准差的中心区域以外的概率仅有0.0027。更一般地,如果x是属性值,则|x|=c的概率随c增加而迅速减小。 设α= p (|x| ≥c)。表6-1显示当分布为N(0,1)时c的某些样本值和对应的α值。注意:离群值超过4个标准差的值出现的可能性是万分之一。 实例:检测一元正态分布中的离群点 定义 定义 设属性x 取自具有均值0 和标准差1 的高斯分布。如果属性值x 满足: P(|x|≥c)=α,其中c 是一个选定的常量,则x以概率1-α为离群点。 为了使用该定义,需要指定α值。从不寻常的值(对象)预示来自不同的值的观点来说,α表示我们错误地将来自给定分布的值分类为离群点的概率。从离群点是N(0,1)分布的稀有值的观点来说,α表示稀有程度。 如果(正常对象的)一个感兴趣的属性的分布是具有均值μ和标准差σ的正态分布,即 分布,则可以通过变换z=(x-μ)/σ转换为标准正态分布N(0,1),通常μ和σ是未知的,可以通过样本均值和样本标准差来估计。 实践中,当观测值很多时,这种估计的效果很好;另一方面,由概率统计中的大数定律可知,在大样本的情况下可以用正态分布近似其它分布。 在该图中, 中心线μ是观测值的预测值, μ 3σ 对应上下控制线, μ 2σ对应上、下警告线。根据3σ原则,99.73%的观测值将落在上下控制线的区间内,仅有0.27%的观测值落在此区间之外。 质量控制示意图 μ+3σ x t μ-3σ μ-2σ μ+2σ μ 对于观测样本X: (1)如此点在上、下警告线之间区域内,则测定过程处于控制状态,生产过程或样本分析结果有效; (2)如果此点超出上、下警告线,但仍在上、下控制线之间的区域内,提示质量开始变劣,可能存在“失控”倾向,应进行初步检查,并采取相应的校正措施; (3)若此点落在上、下控制线之外,表示生产或测定过程“失控,生产的是废品或观测样本无效。应立即检查原因,予以纠正。 质量控制示意图 t μ+3σ x μ-3σ μ-2σ μ+2σ μ 基于统计的离群点检测方法的优缺点 优点: 离群点检测的统计学方法具有坚实的基础,建立在标准的统计学技术(如分布参数的估计)之上。 当存在充分的数据和所用的检验类型的知识时,这些检验可能非常有效。 缺点: 大部分统计方法是针对单个属性的,对于多元数据技术方法较少。 在许多情况下, 数据分布是未知的。 对于高维数据, 很难估计真实的分布。 这类方法不适合混合类型数据 基于距离的离群点检测 基于距离的离群点检测 基于距离的离群点检测方法,其基本思想如下: 一个对象是离群的,如果它远离大部分其它对象。 优点:确定数据集的有意义的邻近性度量比确定它的统计分布更容易,综合了基于分布的思想,克服了基于分布方法的主要缺陷 。 基于距离方法的两种不同策略 第一种策略是采用给定邻域半径,依据点的邻域中包含的对象多少来判定离群点 如果一个点的邻域内包含的对象少于整个数据集的一定比例则标识它为离群点,也就是将没有足够邻居的对象看成是基于距离的离群点。 利用k最近邻距离的大小来判定离群 使用k-最近邻的距离度量一个对象是否远离大部分点,一个对象的离群程度由到它的k-最近邻的距离给定 。 这种方法对k的取值比较敏感。k太小(例如1),则少量的邻近离群点可能导致较低的离群程度。k太大,则点数少于k的簇中所有的对象可能都成了离群点。 到k-最近邻的距离的计算 k-最近邻的距离: 一个对象的离群点得分由到它的k-最近邻的距离给定。 离群点得分的最低值为0,最高值是距离函数的可能最大值----如无穷大 定义6-2 对于正整数k,对象p的k最近邻距离k-distance(p)定义为: (1)除p外,至少有k个对象o满足 (2)除p外,至多k-1个对象o满足 * 定义6-3 点x的离群因子定义为: 这里 是不包含x的k-最近邻的集合, 是该集合的大小。 基于距离的离群点检测算法 输入:数据集D;最近邻个数k 输出:离群点对象列表 1:for all 对象x do 2: 确定x的k-最近邻集合N(x,k) 3: 确定x的离群因子 OF1(x,k) 4:end for 5:对OF1(x,k)降序排列,确定离群因子大的若干对象 6:return 应注意:x的k-最近邻的集 包含的对象数可能超过k。 选择合适的离群因子阈值

文档评论(0)

beautyeve + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档