聚类分析智能科学与人工智能.pptVIP

下载本文档

0
0
约1.38万字
约 115页
2025-11-29 发布于浙江
举报
版权申诉

聚类分析智能科学与人工智能.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

类间距离的统一性上述八种系统聚类法的步骤完全一样，只是距离的递推公式不同。兰斯（Lance）和威廉姆斯（Williams）于1967年给出了一个统一的公式。其中ap、aq、?、?是参数，不同的系统聚类法，它们取不同的数，详见表5.8。这里应该注意，不同的聚类方法结果不一定完全相同，一般只是大致相似。如果有很大的差异，则应该仔细考查，找到问题所在；另外，可将聚类结果与实际问题对照，看哪一个结果更符合经验。系统聚类法参数表层次聚类方法

层次的方法缺陷一旦一个步骤（合并或分裂）完成，就不能被撤销或修正，因此产生了改进的层次聚类方法，如BIRCH(balancediterativereducingandclusteringusinghierarchies)算法CURE(clusteringusingrepresentatives)算法ROCK(robuaclusteringusinglinks)算法等BIRCH算法通过引入了聚类特征和聚类特征树概念，Zhang等人提出BIRCH算法[Zhangetal.1996]。聚类特征是一个包含关于簇的二元组，给出对象子聚类的信息汇总描述。如果某个子聚类中有N个d维的点或对象，则该子聚类的定义为CF=(N，LS，SS)，其中，N是子类中点的个数，LS是N个点的线性和，SS是点的平方和。聚类特征树中所存储的是关于聚类的信息，这些信息是计算聚类和有效利用存储的关键度量。每个叶节点包含一个或多个子聚类，每个子聚类中包含一个或多个对象。一个聚类特征树有两个参数：分支因子B和阈值T，分支因子B定义了每个非叶节点后代的最大数目，阈值参数T给出了存储在树的叶子节点中的子聚类的最大直径。BIRCH算法主要包括扫描数据库和聚类两个阶段。BIRCH算法(1)扫描数据库，建立一个初始存放于内存的聚类特征树，可以看作数据的多层压缩，试图保留数据内在的聚类结构。一个对象被插入到距其最近的叶节点(子聚类)中时，如果在插入对象后，存储在叶节点中的子聚类的直径大于阈值，那么该叶节点被分裂，也可能有其他节点被分裂。新对象插入后，关于该对象的信息向根节点传递。通过修改阈值，聚类特征树的大小可以改变。如果存储聚类特征树需要的内存大于主存的大小，可以定义一个较大的阈值，并重建聚类特征树。重建过程从旧树的叶子节点建造一个新树。这样，重建树的过程不需要重读所有的对象。因此为了建树，只需读一次数据。采用一些启发式规则和方法。通过额外的数据扫描来处理孤立点和改进CF树的质量。聚类特征树建好后，可以在阶段二被用于任何聚类算法。BIRCH算法(2)BIRCH采用某个聚类算法对聚类特征树的叶节点进行聚类。B1RCH算法具有可伸缩性，算法的时间复杂度为O(n)(不重建聚类特征树时)，通过对数据集的首次扫描产生一个基本聚类，二次扫描进一步改进聚类质量并处理异常点。BIRCH算法的处理速度较快，但对非球形簇处理效果不好。CURE算法Guha等人提出CURE(clusteringusingrepresentatives)算法利用代表点进行聚类，解决了大多数聚类算法偏好球形和相似大小的问题，并且容易处理异常点[Guhaetal.1998]。CURE算法选用数据空间中固定数目的、具有代表性的点代表簇，然后根据一个特定的分数或收缩因子向簇中心“收缩”或将其移动。如果两个簇的代表点距离最近，则将这两个簇合并。由于每个簇有一个以上的代表点，使CURE算法可以适应非球形的几何形状，而且簇的收缩或凝聚可以控制异常点的影响，因此CURE算法对异常点的处理更健壮。对于大型数据库，CURE算法有良好的伸缩性，不会降低聚类的质量CURE算法(1)从源数据集中抽取一个随机样本S，包含s个对象。(2)将样本S分为p个划分，每个划分大小为s／p。(3)将每个划分局部聚类成s／pq聚类，其中ql。(4)通过随机采样消除异常数据，若一个簇增长太慢，就删除该簇。(5)对局部的簇进行再聚类，落在每个新形成的聚类中的代表点，则根据用户定义的收缩因子a收缩或向簇中心移动。这些点将用于代表并描绘出聚类的边界。(6)对簇中的数据标记上相应簇标记。CURE算法的时间复杂度为O(n)，最大问题是无法处理分类属性。ROCK算法Guha等人于1999年提出了一个面向分类属性数据的聚类算法ROCK[Guhaetal.2000]。