数据挖掘-CHAPTER7-聚类要点解析.ppt

  1. 1、本文档共173页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * 基于统计学的孤立点检测 工作假设H是一个命题:n个对象的整个数据集合来自一个初始的分布模型F, 即 H:Oi ∈F,i =1, 2, …, n 不一致性检验验证一个对象Oi关于分布F是否显著地大(或者小) 依据关于数据的可用知识, 已提出不同的统计量用于不一致性检验 假设某个统计量被选择用于不一致性检验, 对象Oi的该统计量的值为Vi, 则构建分布T 估算显著性概率SP(Vi)=Prob(T>Vi) 如果某个SP(Vi)是足够的小, 那么Oi是不一致的, 工作假设被拒绝. 替代假设被采用, 它声明Oi来自于另一个分布模型G * 基于统计学的孤立点检测 结果非常依赖于模型F的选择 Oi可能在一个模型下是孤立点, 在另一个模型下是非常有效的值 替代分布在决定检验的能力上是非常重要的 不同的替代分布 固有的替代分布(inherent alternative distribution):所有对象来自分布F的工作假设被拒绝, 而所有对象来自另一个分布G的替代假设被接受 混合替代分布(mixture alternative distribution):不一致的值不是F分布中的孤立点, 而是来自其他分布的污染物 滑动替代分布(slippage alternative distribution):所有的对象( 除了少量外)根据给定的参数, 独立地来自初始的模型F,而剩余的对象是来自修改过的F的独立的观察 * 基于统计学的孤立点检测 检测孤立点有两类基本的过程 批(block)过程: 或者所有被怀疑的对象都被作为孤立点对待, 或者都被作为一致数据而接受 连续的过程: 该过程的一个例子是内部出局(inside-out)过程 主要思想 首先检验最不可能是孤立点的对象. 如果它是孤立点, 那么所有更极端的值都被认为是孤立点;否则, 检验下一个极端的对象, 依次类推 该过程往往比批过程更为有效 * 基于统计学的孤立点检测 缺点 绝大多数检验是针对单个属性的, 而许多数据挖掘问题要求在多维空间中发现孤立点 统计学方法要求关于数据集合参数的知识(如, 数据分布), 但是在许多情况下, 数据分布可能是未知的 当没有特定的检验时, 统计学方法不能确保所有的孤立点被发现; 或者观察到的分布不能恰当地被任何标准的分布来模拟 * 基于距离的孤立点检测 为了解决统计学方法带来的一些限制,引入了基于距离的孤立点的概念 基于距离的孤立点: DB(p, d)-孤立点是数据集T中的一个对象o, 使得 T中的对象至少有p部分与o的距离大于d 将基于距离的孤立点看作是那些没有“足够多”邻居的对象. 这里的邻居是基于距给定对象的距离来定义的 对许多不一致性检验来说, 如果一个对象 o根据给定的检验是一个孤立点, 那么对恰当定义的p和d,o也是一个DB(p,d) 孤立点 例如,如果离平均值偏差3或更大的对象被认为是孤立点,假设一个正态分布,那么这个定义能够被一个DB(0.9988,0.13σ)孤立点所概括 * 基于距离的孤立点挖掘算法 基于索引的算法 采用多维索引结构, R树或k-d树, 来查找每个对象o在半径d范围内的邻居 设M是一个孤立点的d-邻域内的最大对象数目. 一旦对象o的M+1个邻居被发现, o就不是 孤立点 最坏情况下的复杂度为O(kn2), 这里k是维数, n是数据集合中对象的数目 建造索引的任务是计算密集的 嵌套循环算法 嵌套-循环算法和基于索引的算法有相同的计算复杂度, 但它避免了索引结构的构建, 试图最小化I/O的次数 它把内存的缓冲空间分为两半, 把数据集合分为若干个逻辑块. 通过精心选择逻辑块装入每个缓冲区域的顺序,I/O效率能够改善 * 基于距离的孤立点挖掘算法 基于单元(cell-based)的算法 为了避免O(n2)的计算复杂度,为驻留内存的数据集合开发了基于单元的算法. 它的复杂度是O(ck+n),这里c是依赖于单元数目的常数, k是维数 方法 数据空间被划分为单元, 单元的边长等于 每个单元有两层围绕着. 第一层的厚度是一个单元, 而第二层的厚度是 算法逐个单元地对孤立点计算,而不是逐个对象地进行计算. 对一个给定的单元, 它累计三个计数——单元中对象的数目cell_count , 单元和第一层中对象的数目cell_+_1_layer_count , 及单元和两个层次中的对象的数目cell_+_2_layer_count * 基于距离的孤立点挖掘算法 确定孤立点 设M是一个孤立点的d-邻域中可能存在的孤立点的最大数目 如果cell_+_1_layer_count大于M, 那么该单元中所有的对象可以从进一步的考察中移走, 因为它们不可能是孤立点 如果cell_+_

文档评论(0)

挺进公司 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档