数据挖掘-CHAPTER7-聚类要点解析.ppt

下载文档 降价啦

5
0
约3.67万字
约 173页
2016-04-23 发布于湖北
举报
版权申诉
保障服务

数据挖掘-CHAPTER7-聚类要点解析.ppt

1、本文档共173页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* * 基于统计学的孤立点检测工作假设H是一个命题：n个对象的整个数据集合来自一个初始的分布模型F, 即 H：Oi ∈F，i =1, 2, …, n 不一致性检验验证一个对象Oi关于分布F是否显著地大(或者小) 依据关于数据的可用知识, 已提出不同的统计量用于不一致性检验假设某个统计量被选择用于不一致性检验, 对象Oi的该统计量的值为Vi, 则构建分布T 估算显著性概率SP(Vi)=Prob(T>Vi) 如果某个SP(Vi)是足够的小, 那么Oi是不一致的, 工作假设被拒绝. 替代假设被采用, 它声明Oi来自于另一个分布模型G * 基于统计学的孤立点检测结果非常依赖于模型F的选择 Oi可能在一个模型下是孤立点, 在另一个模型下是非常有效的值替代分布在决定检验的能力上是非常重要的不同的替代分布固有的替代分布(inherent alternative distribution):所有对象来自分布F的工作假设被拒绝, 而所有对象来自另一个分布G的替代假设被接受混合替代分布(mixture alternative distribution)：不一致的值不是F分布中的孤立点, 而是来自其他分布的污染物滑动替代分布(slippage alternative distribution)：所有的对象( 除了少量外)根据给定的参数, 独立地来自初始的模型F，而剩余的对象是来自修改过的F的独立的观察 * 基于统计学的孤立点检测检测孤立点有两类基本的过程批(block)过程: 或者所有被怀疑的对象都被作为孤立点对待, 或者都被作为一致数据而接受连续的过程：该过程的一个例子是内部出局(inside-out)过程主要思想首先检验最不可能是孤立点的对象. 如果它是孤立点, 那么所有更极端的值都被认为是孤立点;否则, 检验下一个极端的对象, 依次类推该过程往往比批过程更为有效 * 基于统计学的孤立点检测缺点绝大多数检验是针对单个属性的, 而许多数据挖掘问题要求在多维空间中发现孤立点统计学方法要求关于数据集合参数的知识(如, 数据分布), 但是在许多情况下, 数据分布可能是未知的当没有特定的检验时, 统计学方法不能确保所有的孤立点被发现; 或者观察到的分布不能恰当地被任何标准的分布来模拟 * 基于距离的孤立点检测为了解决统计学方法带来的一些限制，引入了基于距离的孤立点的概念基于距离的孤立点: DB(p, d)-孤立点是数据集T中的一个对象o, 使得 T中的对象至少有p部分与o的距离大于d 将基于距离的孤立点看作是那些没有“足够多”邻居的对象. 这里的邻居是基于距给定对象的距离来定义的对许多不一致性检验来说, 如果一个对象 o根据给定的检验是一个孤立点, 那么对恰当定义的p和d，o也是一个DB(p,d) 孤立点例如，如果离平均值偏差3或更大的对象被认为是孤立点，假设一个正态分布，那么这个定义能够被一个DB(0.9988,0.13σ)孤立点所概括 * 基于距离的孤立点挖掘算法基于索引的算法采用多维索引结构, R树或k-d树, 来查找每个对象o在半径d范围内的邻居设M是一个孤立点的d-邻域内的最大对象数目. 一旦对象o的M+1个邻居被发现, o就不是孤立点最坏情况下的复杂度为O(kn2), 这里k是维数, n是数据集合中对象的数目建造索引的任务是计算密集的嵌套循环算法嵌套-循环算法和基于索引的算法有相同的计算复杂度, 但它避免了索引结构的构建, 试图最小化I/O的次数它把内存的缓冲空间分为两半, 把数据集合分为若干个逻辑块. 通过精心选择逻辑块装入每个缓冲区域的顺序,I/O效率能够改善 * 基于距离的孤立点挖掘算法基于单元(cell-based)的算法为了避免O(n2)的计算复杂度，为驻留内存的数据集合开发了基于单元的算法. 它的复杂度是O(ck+n)，这里c是依赖于单元数目的常数, k是维数方法数据空间被划分为单元, 单元的边长等于每个单元有两层围绕着. 第一层的厚度是一个单元, 而第二层的厚度是算法逐个单元地对孤立点计算，而不是逐个对象地进行计算. 对一个给定的单元, 它累计三个计数——单元中对象的数目cell_count , 单元和第一层中对象的数目cell_+_1_layer_count , 及单元和两个层次中的对象的数目cell_+_2_layer_count * 基于距离的孤立点挖掘算法确定孤立点设M是一个孤立点的d-邻域中可能存在的孤立点的最大数目如果cell_+_1_layer_count大于M, 那么该单元中所有的对象可以从进一步的考察中移走, 因为它们不可能是孤立点如果cell_+_