聚类分析智能科学与人工智能.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

类间距离的统一性上述八种系统聚类法的步骤完全一样,只是距离的递推公式不同。兰斯(Lance)和威廉姆斯(Williams)于1967年给出了一个统一的公式。 其中ap、aq、?、?是参数,不同的系统聚类法,它们取不同的数,详见表5.8。这里应该注意,不同的聚类方法结果不一定完全相同,一般只是大致相似。如果有很大的差异,则应该仔细考查,找到问题所在;另外,可将聚类结果与实际问题对照,看哪一个结果更符合经验。系统聚类法参数表层次聚类方法

层次的方法缺陷一旦一个步骤(合并或分裂)完成,就不能被撤销或修正,因此产生了改进的层次聚类方法,如BIRCH(balancediterativereducingandclusteringusinghierarchies)算法CURE(clusteringusingrepresentatives)算法ROCK(robuaclusteringusinglinks)算法等BIRCH算法通过引入了聚类特征和聚类特征树概念,Zhang等人提出BIRCH算法[Zhangetal.1996]。聚类特征是一个包含关于簇的二元组,给出对象子聚类的信息汇总描述。如果某个子聚类中有N个d维的点或对象,则该子聚类的定义为CF=(N,LS,SS),其中,N是子类中点的个数,LS是N个点的线性和,SS是点的平方和。聚类特征树中所存储的是关于聚类的信息,这些信息是计算聚类和有效利用存储的关键度量。每个叶节点包含一个或多个子聚类,每个子聚类中包含一个或多个对象。一个聚类特征树有两个参数:分支因子B和阈值T,分支因子B定义了每个非叶节点后代的最大数目,阈值参数T给出了存储在树的叶子节点中的子聚类的最大直径。BIRCH算法主要包括扫描数据库和聚类两个阶段。BIRCH算法(1)扫描数据库,建立一个初始存放于内存的聚类特征树,可以看作数据的多层压缩,试图保留数据内在的聚类结构。一个对象被插入到距其最近的叶节点(子聚类)中时,如果在插入对象后,存储在叶节点中的子聚类的直径大于阈值,那么该叶节点被分裂,也可能有其他节点被分裂。新对象插入后,关于该对象的信息向根节点传递。通过修改阈值,聚类特征树的大小可以改变。如果存储聚类特征树需要的内存大于主存的大小,可以定义一个较大的阈值,并重建聚类特征树。重建过程从旧树的叶子节点建造一个新树。这样,重建树的过程不需要重读所有的对象。因此为了建树,只需读一次数据。采用一些启发式规则和方法。通过额外的数据扫描来处理孤立点和改进CF树的质量。聚类特征树建好后,可以在阶段二被用于任何聚类算法。BIRCH算法(2)BIRCH采用某个聚类算法对聚类特征树的叶节点进行聚类。B1RCH算法具有可伸缩性,算法的时间复杂度为O(n)(不重建聚类特征树时),通过对数据集的首次扫描产生一个基本聚类,二次扫描进一步改进聚类质量并处理异常点。BIRCH算法的处理速度较快,但对非球形簇处理效果不好。CURE算法Guha等人提出CURE(clusteringusingrepresentatives)算法利用代表点进行聚类,解决了大多数聚类算法偏好球形和相似大小的问题,并且容易处理异常点[Guhaetal.1998]。CURE算法选用数据空间中固定数目的、具有代表性的点代表簇,然后根据一个特定的分数或收缩因子向簇中心“收缩”或将其移动。如果两个簇的代表点距离最近,则将这两个簇合并。由于每个簇有一个以上的代表点,使CURE算法可以适应非球形的几何形状,而且簇的收缩或凝聚可以控制异常点的影响,因此CURE算法对异常点的处理更健壮。对于大型数据库,CURE算法有良好的伸缩性,不会降低聚类的质量CURE算法(1)从源数据集中抽取一个随机样本S,包含s个对象。(2)将样本S分为p个划分,每个划分大小为s/p。(3)将每个划分局部聚类成s/pq聚类,其中ql。(4)通过随机采样消除异常数据,若一个簇增长太慢,就删除该簇。(5)对局部的簇进行再聚类,落在每个新形成的聚类中的代表点,则根据用户定义的收缩因子a收缩或向簇中心移动。这些点将用于代表并描绘出聚类的边界。(6)对簇中的数据标记上相应簇标记。CURE算法的时间复杂度为O(n),最大问题是无法处理分类属性。ROCK算法Guha等人于1999年提出了一个面向分类属性数据的聚类算法ROCK[Guhaetal.2000]。

文档评论(0)

195****7425 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档