聚类分析简介原理与应用复习进程.ppt

  1. 1、本文档共62页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
系统聚类——类的个数确定 给定阈值:通过观测聚类图,给出一个合适的阈值T。要求类与类之间的距离不要超过T值。例如我们给定T=0.3,当聚类时,类间的距离已经超过了0.3,则聚类结束。 系统聚类——半偏相关 半偏相关统计量 其中T是数据的总离差平方和, 是组内离差平方和。 比较大,说明分G个类时类内的离差平方和比较小,也就是说分G类是合适的。但是,分类越多,每个类的类内的离差平方和就越小, 也就越大;所以我们只能取合适的G,使得 足够大,而G本身很小,随着G的增加, 的增幅不大。比如,假定分4类时, =0.8;下一次合并分3类时,下降了许多, =0.32,则分4类是合适的。 系统聚类——半偏相关 系统聚类——伪F统计量 伪F统计量 伪F统计量用于评价聚为G类的效果。如果聚类的效果好,类间的离差平方和相对于类内的离差平方和大,所以应该取伪F统计量较大而类数较小的聚类水平。 其中T是数据的总离差平方和, 是类内离差平方和 系统聚类——伪F统计量 伪 统计量的定义为 其中 和 分别是的类内离差平方和, 是将K和L合并为第M类的离差平方和 = - - 为合并导致的类内离差平方和的增量。用它 评价合并第K和L类的效果,伪 统计量大说 明不应该合并这两类,应该取合并前的水平。 系统聚类——伪 统计量 系统聚类——CCC统计量 立方聚类准则 其中 ,v是方差稳定化变换,一般取值为 一般由 维空间的均匀分布得到。一般选择 后的第一个局部极大值点对应的分类数。 系统聚类——CCC统计量 系统聚类法的基本性质 在聚类分析过程中,并类距离分别为l k(k=1,2,3,…?)若满足 ,则称该聚类方法具有单调性。除了重心法和中间距离法之外,其他的系统聚类法均满足单调性的条件。 单调性 系统聚类法的基本性质 空间的浓缩和扩张 设有两种系统聚类法A和B,他们在第i步的距离矩阵分别为Ai和Bi(I=1,2,3…),若Ai>Bi ,则称第一种方法A比第二种方法B使空间扩张,或第二种方法比第一种方法浓缩。 D(短) D(平),D(重) D(平); D(长) D(平); 方法的比较 类平均法适中 系统聚类局限 样品一旦划到某个类以后就不变了,这要求分类方法比较 准确 样品数n很大时,系统聚类法的计算很庞大,从而使其不方便应用 动态聚类解决的问题是:假如有个样本点,要把它们分为类,使得每一类内的元素都是聚合的,并且类与类之间还能很好地区别开。动态聚类使用于大型数据。 动态聚类步骤 动态聚类——凝聚点选择 凭经验选择,如果对问题已经有一定的了解,可将所有的的样品大致分类,在每类选择一个有代表性的样品作为聚类点 将所有的样品随机地分成k类,计算每一类的均值,将这些均值作为凝聚点 采用最大最小原则,假设样品最终分为k类,先选择所有样品中相距最远的两个样品为凝聚点,即选择 ,使 .选择第三个凝聚点 与前面两个聚类点的距离最小者等于所有其余的样品与 的最小距离中最大的。 动态聚类——k 均值聚类 动态聚类——k 均值聚类不足 凝聚点选择不当 动态聚类——k 均值聚类不足 不同的簇 动态聚类——k 均值聚类不足 离群点 其他 基于划分聚类算法(partition clustering) k-means: 是一种典型的划分聚类算法,它用一个聚类的中心来代表一个簇,即在迭代过程中选择的聚点不一定是聚类中的一个点,该算法只能处理数值型数据 k-modes: K-Means算法的扩展,采用简单匹配方法来度量分类型数据的相似度 k-prototypes: 结合了K-Means和K-Modes两种算法,能够处理混合型数据 k-medoids: 在迭代过程中选择簇中的某点作为聚点,PAM是典型的k-medoids算法 CLARA: CLARA算法在PAM的基础上采用了抽样技术,能够处理大规模数据 CLARANS: CLARANS算法融合了PAM和CLARA两者的优点,是第一个用于空间数据库的聚类算法 Focused CLARAN: 采用了空间索引技术提高了CLARANS算法的效率 PCM: 模糊集合理论引入聚类分析中并提出了PCM模糊聚类算法 * 多元统计分析:聚类分析 * * 多元统计分析:聚类分析 * 聚类分析 陈龙震 聚类分析 聚类分析的

文档评论(0)

139****0376 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档