第九章 聚类的分析.ppt

  1. 1、本文档共93页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* K-中心点聚类算法 每当重新分配发生时,替换的总代价是所有非中心对象产生的代价之和: 如果总代价是负的,则Oj可被Orandom代替; 否则,则认为当前的中心点Oj是可接受的,在本次迭代中没有变化。 * K-中心点聚类算法 * 两种划分方法的关系 关系: k-中心点方法比k-均值方法更健壮,因为其不易受到极端数据的影响; 但k-中心点方法比k-均值方法的执行代价高; 两种方法都需要用户提前指定聚类结果的数目k。 9.5 基于层次的聚类方法 大体上,主要的聚类算法可以划分为如下几类: (1)划分方法; (2)层次方法; (3)基于密度的方法; (4)基于网格的方法; (5)基于模型的方法。 * 层次方法 层次方法: 该方法对给定的数据对象集合进行层次分解,根据层次分解的方式,层次的方法被分为凝聚的和分裂的: 凝聚层次方法:也称自底向上方法,一开始将每个对象作为单独的一组,然后相继地合并相近的对象或组,直到所有的组合并为一个,或达到某个终止条件,代表:AGNES算法; 分裂层次方法:也称自顶向下方法,一开始所有对象置于一个簇中,在迭代的每一步,一个簇被分裂为更小的簇,直到最终每个对象单独为一个簇,或达到某个终止条件,代表:DIANA算法。 * * 距离计算方法 AGNES算法 AGNES 算法:最初将每个对象作为一个簇,然后这些簇根据某些准则被一步步地合并,直到达到初始指定的簇数目。 算法9-1 AGNES(自底向上凝聚算法) 输入:包含n个对象的数据库,终止条件簇的数目k。 输出:k个簇,达到终止条件规定簇数目。 (1) 将每个对象当成一个初始簇; (2) REPEAT (3) 根据两个簇中最近的数据点找到最近的两个簇; (4) 合并两个簇,生成新的簇的集合; (5) UNTIL 达到定义的簇的数目; AGNES算法 AGNES算法示意图 DIANA算法 DIANA 算法:与AGNES算法相反,初始所有节点都在一个大簇中,根据某些准则被一步步地分解,直到达到初始设定的簇数目。 聚类过程中,DIANA算法将用到如下两种测度方法: 簇的直径:一个簇中的任意两个数据点的距离中的最大值; 平均相异度(平均距离): DIANA算法 算法9-2 DIANA(自顶向下分裂算法) 输入:包含n个对象的数据库,终止条件簇的数目k。 输出:k个簇,达到终止条件规定簇数目。 (1)将所有对象整个当成一个初始簇; (2) FOR (i=1; i≠k; i++) DO BEGIN (3) 在所有簇中挑出具有最大直径的簇C; (4) 找出C中与其它点平均相异度最大的一个点p并把p放入splinter group,剩余的放在old party中; (5). REPEAT (6) 在old party里找出到最近的splinter group中的点的距离不大于到old party中最近点的距离的点,并将该点加入splinter group。 (7) UNTIL 没有新的old party的点被分配给splinter group; (8) splinter group和old party为被选中的簇分裂成的两个簇,与其它簇一起组成新的簇集合。 (9) END. * DIANA算法 DIANA算法示意图 * 示例 * 示例 1)最初AGNES将每个对象作为一个簇,然后这些簇根据某些准则被一步步合并。 如,如果簇C1中的一个对象和簇C2中的一个对象之间的距离是所有属于不同簇的对象间欧氏距离最小的, C1和C2可能被合并。 这是一种单链接方法:每个簇可以被簇中所有对象代表,两个簇间的相似度由这两个不同簇中距离最近的数据点对的相似度确定。 聚类的合并过程反复进行直到所有对象最终合并形成一个簇。 * 示例 2)在分裂层次DIANA方法中,所有对象初始都放在一个簇中,根据一些原则(如簇中对象的最大欧氏距离),将该簇分裂。簇的分裂过程反复进行,直到最终每个新的簇只包含一个对象。 注意: 在这两种层次方法中,用户可以定义一个希望得到的簇的数目来作为结束条件。 9.5 基于层次的聚类方法 大体上,主要的聚类算法可以划分为如下几类: (1)划分方法; (2)层次方法; (3)基于密度的方法; (4)基于网格的方法; (5)基于模型的方法。 * 基于密度的聚类方法 密度方法: 绝大多数聚类方法基于对象之间的距离进行聚类,这样的方法只能发现球状的簇,而在发现任意形状的簇上遇到了困难。 基于密度的方法:只要一个区域中点的密度(对象或数据点的数目)超过某个阈值,就将其加到与之相近的聚类中去。 这种方法可以过滤噪声孤立点数据,发现任意形状的簇。 代表算法有

文档评论(0)

5566www + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6122115144000002

1亿VIP精品文档

相关文档