基于划分的聚类算法聚类算法.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于划分的聚类算法-------聚类算法

层次聚类概述 主要有两种类型 凝聚式: 一开始将每个对象作为单独的一个簇 在每一步,将最相近的簇合并,直到所有的组合并成一 个,或达到一个终止条件为止 分裂式: 一开始将所有的对象置于一类 在迭代的每一步中,一个类不断地分为更小的类,直到每 个对象在单独的一个类中,或达到一个终止条件 传统的层次聚类算法需要用到一个相似性或者距离矩阵 层次聚类概述 层次聚类的优点: 不必事先假定特定数目的簇,在树图中合适的层次上做切面,就可以得到任意理想数量的簇; 可能对应于有意义的分类层次,如在生物学中 (e.g., 动物王国, 生物种系, …) 凝聚式聚类 更普遍的一种聚类方法 基本算法很直观 关键操作是计算两个簇之间的邻近度 使用不同的邻近度方法,产生不同的聚类算法 初始情形 每个点构成一个簇,并给出它们的邻近度矩阵 p1 p3 p5 p4 p2 p1 p2 p3 p4 p5 . . . . . . 邻近度矩阵 聚类过程中的情形 经过一些合并后,得到了一些簇 C1 C4 C2 C5 C3 C2 C1 C1 C3 C5 C4 C2 C3 C4 C5 邻近度矩阵 聚类过程中的情形 假设需要合并两个最近的簇(C2和C5),并需要更新邻近度矩阵 C1 C4 C2 C5 C3 C2 C1 C1 C3 C5 C4 C2 C3 C4 C5 邻近度矩阵 合并后 问题是“如何更新邻近度矩阵?” C1 C4 C2 U C5 C3 ? ? ? ? ? ? ? C2 U C5 C1 C1 C3 C4 C2 U C5 C3 C4 邻近度矩阵 如何定义簇间的相似度 p1 p3 p5 p4 p2 p1 p2 p3 p4 p5 . . . . . . 相似度 MIN MAX 组平均Group Average 质心距离Distance Between Centroids 目标函数驱动方法 Ward’s Method uses squared error 邻近度矩阵 簇相似度: MIN 或者单链 (Single Link) 最小距离法(single linkage method) Min定义簇的邻近度为不同簇的两个最近的点之间的邻近度,或者使用图的术语,不同的结点子集中两个结点之间的最短边。 簇相似度: MIN 或者单链 (Single Link) 示例2,有6个二维点的样本数据。点x和y坐标,以及点之间的欧几里得距离如下表所示。 点 X坐标 Y坐标 P1 0.4005 0.5306 P2 0.2148 0.3854 P3 0.3547 0.3156 P4 0.2652 0.1875 P5 0.0789 0.4139 p6 0.4548 0.3022 P1 P2 P3 P4 P5 P6 P1 0 0.2357 0.2218 0.3688 0.3421 0.2347 P2 0.2357 0 0.1483 0.2042 0.1388 0.2540 P3 0.2218 0.1483 0 0.1513 0.2843 0.1100 P4 0.3688 0.2042 0.1513 0 0.2932 0.2216 P5 0.3421 0.1388 0.2843 0.2932 0 0.3921 p6 0.2347 0.2540 0.1100 0.2216 0.3921 0 簇相似度: MIN 或者单链 (Single Link) 示例2,有6个二维点的样本数据。点x和y坐标,以及点之间的欧几里得距离如下表所示。 树图 嵌套的簇 1 2 3 4 5 6 1 2 3 4 5 dist({3,6},{2,5})=min(dist(3,2),dist(6,2),dist(3,5),dist(6,5))=min(0.15,0.25,0.28,0.39)=0.15 簇相似度: MAX 或全链(Complete Linkage) 最大距离法(complete linkage method) MAX定义簇的邻近度为不同簇中两个最远的点之间的邻近度,或者使用图的术语,不同的结点子集中两个结点之间的最长边。 回到刚才的例子 最大距离法(complete linkage method) dist({3,6},{4})=max(dist(3,4),dist(6,4))=max(0.15,0.22)=0.22 dist({3,6},{2,5})=max(dist(3,2),dist(6,2),dist(3,5),dist(6,5)) =max(0.15,0.25,0.28,0.39)=0.39 dist({3,6},{1})=m

文档评论(0)

暗伤 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档