聚类分析—层次聚.pptVIP

下载本文档

5
0
约7.45千字
约 38页
2019-09-03 发布于江苏
举报
版权申诉

聚类分析—层次聚.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

节点分裂插入新节点后，可能有些节点的孩子数大于了B（或L），此时该节点要分裂。对于Leaf，它现在有L+1个MinCluster，我们要新创建一个Leaf，使它作为原Leaf的兄弟结点，同时注意每新创建一个Leaf都要把它插入到双向链表中。L+1个MinCluster要分到这两个Leaf中，怎么分呢？找出这L+1个MinCluster中距离最远的两个Cluster（根据D2），剩下的Cluster看离哪个近就跟谁站在一起。分好后更新两个Leaf的CF值，其祖先节点的CF值没有变化，不需要更新。这可能导致祖先节点的递归分裂，因为Leaf分裂后恰好其父节点的孩子数超过了B。Nonleaf的分裂方法与Leaf的相似，只不过产生新的Nonleaf后不需要把它放入一个双向链表中。如果是树的根节点要分裂，则树的高度加1。 * Birch算法的阶段： ???阶段一：扫描数据库，构造一颗CF树，并定义相关阈值，把稠密数据分成簇。 ???阶段二：对CF树进行压缩，通过改变T值，将部分簇进行压缩合并，建立一个更小的CF树。 ???阶段三：采用其他的聚类算法对其叶节点进行聚类，将稀疏的簇当作离群值进行删除，补救由于输入顺序和页面大小带来的分裂。 ???阶段四：通过上阶段得出聚类质心，将其作为种子节点，将其他对象分配给质心，构成新的聚类。 * BIRCH算法流程如下图所示： ?? ??BIRCH算法流程如下图所示： ???????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? * BIRCH (续) 重建过程从旧树的叶子节点建造一个新树。这样，重建树的过程不需要重读所有的对象 ----建树只需读一次数据在阶段三和四采用任何聚类算法，例如典型的划分方法 BIRCH的性能支持增量聚类：因为它对每一个数据点的聚类的决策都是基于当前已经处理过的数据点，而不是基于全局的数据点。线性可伸缩性: 计算复杂性O(n), 单遍扫描, 附加的扫描可以改善聚类质量较好的聚类质量缺点只能处理数值数据对数据的输入次序敏感 CF树结点不总是对应于[用户考虑的]自然簇(参数B和T) 簇非球形时效果不好(使用半径/直径控制簇边界) * CURE(1998) CURE (Clustering Using REpresentatives ) : 由 Guha, Rastogi 和 Shim提出(1998) 绝大多数聚类算法或者擅长处理球形和相似大小的聚类，或者在存在孤立点时变得比较脆弱 CURE解决了偏好球形的问题，在处理孤立点上也更加健壮 CURE采用了一种新的层次聚类算法选择基于质心和基于代表对象方法之间的中间策略. 它不用单个质心或对象来代表一个簇, 而是选择了数据空间中固定数目的具有代表性的点首先选择簇中分散的对象, 然后根据一个特定的收缩因子向簇中心“收缩” * CURE(续) 每个簇有多于一个的代表点使得CURE可以适应非球形的任意形状的聚类簇的收缩或凝聚可以有助于控制孤立点的影响 CURE的优点 CURE对孤立点的处理更加健壮能够识别非球形和大小变化较大的簇对于大规模数据库, 它也具有良好的伸缩性, 而且没有牺牲聚类质量针对大型数据库, CURE采用了随机取样和划分两种方法的组合首先划分一个随机样本,每个划分被部分聚类然后对这些结果簇聚类, 产生希望的结果 * Cure(续) CURE算法核心: 从源数据对象中抽取一个随机样本集S . 将样本S分割为p个划分, 每个的大小为 s/p 将每个划分局部地聚类成 s/pq 个簇删除孤立点通过随机选样如果一个簇增长太慢, 就删除它. 对局部聚类进行聚类. 用相应的簇标签来标记数据 * CURE: 例 s = 50 p = 2 s/p = 25 x x x y y y y x y x s/pq = 5 * CURE: 例(续) 多个代表点向重心以因子?移动, 进行收缩或凝聚多个代表点描述了每个簇的形状 x y x y * 对分类数据聚类: ROCK ROCK(RObust