第五章 聚类方法 .ppt

  1. 1、本文档共77页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Chinese Academy of Science * 层次聚类方法的改进--BIRCH BIRCH算法试图利用可用的资源来生成最好的聚类结果。 通过一次扫描就可以进行较好的聚类,故该算法的计算复杂度是O(n),n是对象的数目。 Chinese Academy of Science * 层次聚类方法的改进--CURE 很多聚类算法只擅长处理球形或相似大小的聚类,另外有些聚类算法对孤立点比较敏感。 CURE算法解决了上述两方面的问题,选择基于质心和基于代表对象方法之间的中间策略,即选择空间中固定数目的具有代表性的点,而不是用单个中心或对象来代表一个簇。 该算法首先把每个数据点看成一簇,然后再以一个特定的收缩因子向簇中心“收缩”它们,即合并两个距离最近的代表点的簇。 Chinese Academy of Science * 层次聚类方法的改进--CURE CURE算法采用随机取样和划分两种方法的组合,具体步骤如下: 从源数据集中抽取一个随机样本。 为了加速聚类,把样本划分成p份,每份大小相等。 对每个划分局部地聚类。 根据局部聚类结果,对随机取样进行孤立点剔除。主要有两种措施:如果一个簇增长得太慢,就去掉它。在聚类结束的时候,非常小的类被剔除。 Chinese Academy of Science * 层次聚类方法的改进--CURE CURE算法采用随机取样和划分两种方法的组合,具体步骤如下: 对上一步中产生的局部的簇进一步聚类。落在每个新形成的簇中的代表点根据用户定义的一个收缩因子?收缩或向簇中心移动。这些点代表和捕捉到了簇的形状。 用相应的簇标签来标记数据。 Chinese Academy of Science * 层次聚类方法的改进--CURE 由于它回避了用所有点或单个质心来表示一个簇的传统方法,将一个簇用多个代表点来表示,使CURE可以适应非球形的几何形状。 另外,收缩因子降底了噪音对聚类的影响,从而使CURE对孤立点的处理更加健壮,而且能识别非球形和大小变化比较大的簇。 CURE的复杂度是O(n),n是对象的数目,所以该算法适合大型数据的聚类。 Chinese Academy of Science * 第五章 聚类方法 5.1 聚类方法概述 5.2 划分聚类方法 5.3 层次聚类方法 5.4 密度聚类方法 5.5 其它聚类方法 Chinese Academy of Science * 密度聚类方法 密度聚类方法的指导思想是: 只要一个区域中的点的密度大于某个域值,就把它加到与之相近的聚类中去。 这类算法能克服基于距离的算法只能发现“类圆形”的聚类的缺点,可发现任意形状的聚类,且对噪声数据不敏感。 但计算密度单元的计算复杂度大,需要建立空间索引来降低计算量,且对数据维数的伸缩性较差。 这类方法需要扫描整个数据库,每个数据对象都可能引起一次查询,因此当数据量大时会造成频繁的I/O操作。 代表算法有:DBSCAN、OPTICS、DENCLUE算法等。 Chinese Academy of Science * 密度聚类方法 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)一个比较有代表性的基于密度的聚类算法。 与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在有“噪声”的空间数据库中发现任意形状的聚类。 Chinese Academy of Science * 第五章 聚类方法 5.1 聚类方法概述 5.2 划分聚类方法 5.3 层次聚类方法 5.4 密度聚类方法 5.5 其它聚类方法 Chinese Academy of Science * STING STING(Statistaical Information Grid_based method) 是一种基于网格的多分辨率聚类技术,它将空间区域划分为矩形单元。 针对不同级别的分辨率,通常存在多个级别的巨型单元,这些单元形成了一个层次结构:高层的每个单元被划分为多个第一层的单元。 高层单元的统计参数可以很容易的从底层单元的计算得到。 Chinese Academy of Science * STING 这些参数包括属性无关的参数count、属性相关的参数m(平均值)、s(标准偏差)、min(最小值)、max(最大值)以及该单元中属性值遵循的分布类型。 STING算法采用了一种多分辨率的方法来进行聚类分析,该聚类算法的质量取决于网格结构最低层的粒度。 Chinese Academy of Science * STING

文档评论(0)

zzqky + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档