第五章聚类方法 .ppt

下载文档 降价啦

9
0
约1.42万字
约 77页
2020-07-16 发布于山东
举报
版权申诉
保障服务

第五章聚类方法 .ppt

1、本文档共77页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Chinese Academy of Science * 层次聚类方法的改进--BIRCH BIRCH算法试图利用可用的资源来生成最好的聚类结果。通过一次扫描就可以进行较好的聚类，故该算法的计算复杂度是O(n)，n是对象的数目。 Chinese Academy of Science * 层次聚类方法的改进--CURE 很多聚类算法只擅长处理球形或相似大小的聚类，另外有些聚类算法对孤立点比较敏感。 CURE算法解决了上述两方面的问题，选择基于质心和基于代表对象方法之间的中间策略，即选择空间中固定数目的具有代表性的点，而不是用单个中心或对象来代表一个簇。该算法首先把每个数据点看成一簇，然后再以一个特定的收缩因子向簇中心“收缩”它们，即合并两个距离最近的代表点的簇。 Chinese Academy of Science * 层次聚类方法的改进--CURE CURE算法采用随机取样和划分两种方法的组合，具体步骤如下：从源数据集中抽取一个随机样本。为了加速聚类，把样本划分成p份，每份大小相等。对每个划分局部地聚类。根据局部聚类结果，对随机取样进行孤立点剔除。主要有两种措施：如果一个簇增长得太慢，就去掉它。在聚类结束的时候，非常小的类被剔除。 Chinese Academy of Science * 层次聚类方法的改进--CURE CURE算法采用随机取样和划分两种方法的组合，具体步骤如下：对上一步中产生的局部的簇进一步聚类。落在每个新形成的簇中的代表点根据用户定义的一个收缩因子?收缩或向簇中心移动。这些点代表和捕捉到了簇的形状。用相应的簇标签来标记数据。 Chinese Academy of Science * 层次聚类方法的改进--CURE 由于它回避了用所有点或单个质心来表示一个簇的传统方法，将一个簇用多个代表点来表示，使CURE可以适应非球形的几何形状。另外，收缩因子降底了噪音对聚类的影响，从而使CURE对孤立点的处理更加健壮，而且能识别非球形和大小变化比较大的簇。 CURE的复杂度是O(n)，n是对象的数目，所以该算法适合大型数据的聚类。 Chinese Academy of Science * 第五章聚类方法 5.1 聚类方法概述 5.2 划分聚类方法 5.3 层次聚类方法 5.4 密度聚类方法 5.5 其它聚类方法 Chinese Academy of Science * 密度聚类方法密度聚类方法的指导思想是：只要一个区域中的点的密度大于某个域值，就把它加到与之相近的聚类中去。这类算法能克服基于距离的算法只能发现“类圆形”的聚类的缺点，可发现任意形状的聚类，且对噪声数据不敏感。但计算密度单元的计算复杂度大，需要建立空间索引来降低计算量，且对数据维数的伸缩性较差。这类方法需要扫描整个数据库，每个数据对象都可能引起一次查询，因此当数据量大时会造成频繁的I/O操作。代表算法有：DBSCAN、OPTICS、DENCLUE算法等。 Chinese Academy of Science * 密度聚类方法 DBSCAN（Density-Based Spatial Clustering of Applications with Noise）一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在有“噪声”的空间数据库中发现任意形状的聚类。 Chinese Academy of Science * 第五章聚类方法 5.1 聚类方法概述 5.2 划分聚类方法 5.3 层次聚类方法 5.4 密度聚类方法 5.5 其它聚类方法 Chinese Academy of Science * STING STING(Statistaical Information Grid_based method) 是一种基于网格的多分辨率聚类技术，它将空间区域划分为矩形单元。针对不同级别的分辨率，通常存在多个级别的巨型单元，这些单元形成了一个层次结构：高层的每个单元被划分为多个第一层的单元。高层单元的统计参数可以很容易的从底层单元的计算得到。 Chinese Academy of Science * STING 这些参数包括属性无关的参数count、属性相关的参数m（平均值）、s(标准偏差)、min(最小值)、max(最大值)以及该单元中属性值遵循的分布类型。 STING算法采用了一种多分辨率的方法来进行聚类分析，该聚类算法的质量取决于网格结构最低层的粒度。 Chinese Academy of Science * STING

您可能关注的文档

文档评论（0）

zzqky + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第五章聚类方法 .ppt