网站大量收购闲置独家精品文档,联系QQ:2885784924

10聚类分析基础.ppt

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
10聚类分析基础剖析

聚类的评估 聚类评估估计在数据集上进行聚类的可行性和被聚类方法产生的结果的质量。 主要包括如下任务 估计聚类趋势 确定数据集中的簇数 测定聚类质量 估计聚类趋势 聚类趋势评估确定给定的数据集是否具有可以导致有意义的聚类的非随机结构。 估计聚类趋势 霍普金斯统计量是一种空间统计量,检验空间分布的变量的空间随机性。 确定数据集中的簇数 确定数据集中“正确的”簇数是重要的,不仅因为像k一均值这样的聚类算法需要这种参数,而且因为合适的簇数可以控制适当的聚类分析粒度。这可以看做在聚类分析的可压缩性与准确性之间寻找好的平衡点。 考虑两种极端情况。如果把整个数据集看做一个簇,会怎么样?这将最大化数据的压缩,但是这种聚类分析没有任何价值。另一方面,把数据集的每个对象看做一个簇将产生最细的聚类(即最准确的解,由于对象到其对应的簇中心的距离都为0)。在像k一均值这样的算法中,这甚至实现开销最小。然而,每个簇一个对象并不提供任何数据概括。 确定数据集中的簇数 测定聚类质量 测定聚类质量 测定聚类质量 * 第10章 聚类分析:基本概念和方法 聚类分析:基本概念 划分方法 层次方法 基于密度的方法 基于网格的方法 聚类的评估 小结 * 小结 小结 * * * * * * * * PAM算法基本思想(续) 每当重新分配发生时,平方-误差E所产生的差别对代价函数有影响。因此,如果一个当前的中心点对象被非中心点对象所代替,代价函数计算平方-误差值所产生的差别。替换的总代价是所有非中心点对象所产生的代价之和。 如果总代价是负的,那么实际的平方-误差将会减小,Oi可以被Oh替代。 如果总代价是正的,则当前的中心点Oi被认为是可接受的,在本次迭代中没有变化。 总代价定义如下: 其中,Cjih表示Oj在Oi被Oh代替后产生的代价。下面我们将介绍上面所述的四种情况中代价函数的计算公式,其中所引用的符号有:Oi和Om是两个原中心点,Oh将替换Oi作为新的中心点。 PAM算法基本思想(续) 算法5-2 PAM(k-中心点算法) 输入:簇的数目k和包含n个对象的数据库。 输出:k个簇,使得所有对象与其最近中心点的相异度总和最小。 (1) 任意选择k个对象作为初始的簇中心点; (2) REPEAT (3) 指派每个剩余的对象给离它最近的中心点所代表的簇; (4) REPEAT (5) 选择一个未被选择的中心点Oi; (6) REPEAT (7) 选择一个未被选择过的非中心点对象Oh; (8) 计算用Oh代替Oi的总代价并记录在S中; (9) UNTIL 所有的非中心点都被选择过; (10) UNTIL 所有的中心点都被选择过; (11) IF 在S中的所有非中心点代替所有中心点后的计算出的总代价有小于0的存在 THEN 找出S中的用非中心点替代中心点后代价最小的一个,并用该非中心点替代对应的中心点,形成一个新的k个中心点的集合; (12)UNTIL 没有再发生簇的重新分配,即所有的S都大于0. 假如空间中的五个点{A、B、C、D、E}如图1所示,各点之间的距离关系如表1所示,根据所给的数据对其运行PAM算法实现划分聚类(设k=2)。 样本点间距离如下表所示: 样本点 起始中心点为A,B PAM算法基本思想(续) 样本点 A B C D E A 0 1 2 2 3 B 1 0 2 4 3 C 2 2 0 1 5 D 2 4 1 0 3 E 3 3 5 3 0 第一步 建立阶段:假如从5个对象中随机抽取的2个中心点为{A,B},则样本被划分为{A、C、D}和{B、E},如图5-3所示。 第二步 交换阶段:假定中心点A、B分别被非中心点}和{C、D、E}替换,根据PAM算法需要计算下列代价TCAC、 TCAD、 TCAE、TCBC、TCBD、 TCBE。 我们以TCAC为例说明计算过程: a) 当A被C替换以后,A不再是一个中心点,因为A离B比A离C近,A被分配到B中心点代表的簇,CAAC=d(A,B)-d(A,A)=1。 b) B是一个中心点,当A被C替换以后,B不受影响,CBAC=0。 c) C原先属于A中心点所在的簇,当A被C替换以后,C是新中心点,符合PAM算法代价函数的第二种情况CCAC=d(C,C)-d(C,A)=0-2=-2。 d) D原先属于A中心点所在的簇,当A被C替换以后,离D最近的中心点是C,根据PAM算法代价函数的第二种情况CDAC=d(D,C)-d(D,A)=1-2=-1。 e) E原先属于B中心点所在的簇,当A被C替换以后,离E最近的中心仍然是 B,根据PAM算法代价

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档