聚类分析2.pptVIP

下载本文档

32
0
约6.35千字
约 45页
2017-09-29 发布于广西
举报
版权申诉

聚类分析2.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚类分析2——ISODATA ISODATA算法 (6) 计算所有样本距其相应的类中心的平均距离 (7) (a)若这是最后一次迭代(由参数I确定)，则置Qc=0，转(11); (b) 若，转(8)； (c) 若是偶数次迭代，或若是，则转(11)，否则继续。 (8) 对于每一个聚类Ri，用下列公式求标准偏差：其中，是第k个样本的第j个分量，是第i个聚类中心的第j个分量，是第i个聚类的标准偏差的第j个分量，n是样本x的维数。聚类分析2——ISODATA ISODATA算法 (9) 对于每一个聚类，求出具有最大标准偏差的分量 (10)若对于任意一个，存在一个，并且有： (a) ；或(b) 。则可把Ri分裂成两个聚类，其中心相应的为：，把原来的wi取消，且令c=c+1。的计算方法如下：给定一个值，，令：则，。式中的值应选择使得Ri中的样本到的距离不同，但应当使得Ri中的样本仍然在这两个新的聚类中。聚类分析2——ISODATA ISODATA算法 (11) 对于所有的聚类中心，计算两两之间的距离： (12) 比较Dij和QC，将DijQC的值按照上升次序排列： (13)从最小的开始，将距离为的两个聚类中心合并，得到新的聚类中心并令c=c-1. 聚类分析2——ISODATA ISODATA算法 (14) 若这是最后一次迭代，则算法终止。否则，若根据经验需要改变参数，则转(1)；若不需要改变参数，则转(2)。并将迭代步数加1。聚类分析2——基于网格的聚类方法基于网格的聚类方法利用多维网格数据结构，将空间划分为有限数目的单元，以构成一个可以进行聚类分析的网格结构。其特点是处理时间与数据对象的数目无关，而只与每维空间所划分的单元数相关，因此基于网格的聚类方法处理时间都比较短。主要包括： STING CLIQUE 聚类分析2——基于网格的聚类方法 STING(STatistical INformation Grid)算法是一种基于网格多分辨率的聚类方法，它将空间划分为若干个方形单元。不同层次的方形单元对应于不同层次的分辨率。这些单元构成了一个层次结构；高层次单元被分解为一组低层次的单元。有关网格单元属性的统计信息(如：均值、最大值、最小值等)可以事先计算并存储。下图给出了一个STING算法的层次结构。聚类分析2——基于网格的聚类方法 STING算法的层次结构聚类分析2——基于网格的聚类方法 STING算法的基本思想：当数据存入数据库时，首先根据数据计算最底层单元的参数，而数据分布可以由用户指定(在已知的条件下)，也可以用统计的方法获得数据的分布类型。高层次单元中的数据分布将根据低层次单元中多数的数据分布类型以及预先指定的阈值确定。若低层次单元中的数据分布彼此不同，且阈值测试失败，那么高层次单元中的数据分布设为未知。聚类分析2——基于网格的聚类方法一种基于STING的自上而下的处理查询操作步骤：首先根据查询内容确定层次结构的开始层次，一般这一层次包含的单元较少；对于当前层次的每个单元，计算信任度差(或估计概率值的范围)，以反映当前单元的与查询要求的相关程度。消除无关单元，以便只考虑相关单元。不断重复上述过程，知道达到最底层。若满足查询要求，返回满足要求的相关单元区域；否则，取出相关区域单元中的数据，对其作进一步的处理直到满足查询要求。聚类分析2——基于网格的聚类方法 CLIQUE(CLustering In QUEst)聚类算法将基于密度的方法与基于网格的方法相结合，适应于处理大规模数据库中的高维数据。基本思想：给定一个大规模多维数据集，空间中的数据点通常并不是均匀分布的。利用CLIQUE方法识别稀疏和“密集”空间区域(unit)，以便发现数据集的整个分布情况。若一个unit所包含的数据点中的一部分超过了输入模型参数，该unit就是密集的。在CLIQUE方法中，一个聚类定义为连接的密集unit的最大集合。聚类分析2——基于网格的聚类方法 CLIQUE聚类算法的操作步骤主要包括; 首先将数据空间划分为不重叠的矩形单元(unit)；再对每一维识别出其中的密集units。 CLIQUE为所得到的每个聚类产生一个最小描述。方法是：对每个聚类确定覆盖连