第二讲聚类分析资料.ppt

  1. 1、本文档共91页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
兰氏距离 这是兰思和维廉姆斯(Lance Williams)所给定的一种距离,其计算公式为: 马氏距离 这是印度著名统计学家马哈拉诺比斯(P.C.Mahalanobis)所定义的一种距离,其计算公式为: 红绿(2,4,6,5)8.75 离差平方和增加8.75-2.5=6.25 黄绿(6,5,1,5)14.75 离差平方和增加14.75-8.5=6.25 黄红(2,4,1,5)10-10=0 各步聚类的结果: (1,2) (3) (4) (5) (1,2,3) (4) (5) (1,2,3) (4,5) (1,2,3,4,5) 2、最长距离法 红绿(2,4,6,5)8.75 离差平方和增加8.75-2.5=6.25 黄绿(6,5,1,5)14.75 离差平方和增加14.75-8.5=6.25 黄红(2,4,1,5)10-10=0 故按该方法的连接应是黄红首先连接。 十二个产区相思树种子发芽情况 (见唐守正编著《多元统计分析方法》75页) * * §3.4 系统聚类法 目录 上页 下页 返回 结束 * * §3.4 系统聚类法 目录 上页 下页 返回 结束 离差平方和法放弃了在一切分类中求的极小值的要求,而是设计出某种规格:找到一个局部最优解,Ward法就是找局部最优解的一个方法。 其思想是先将n个样品各自成一类,然后每次缩小一类,每缩小一类离差平方和就要增大,选择使增加最小的两类合并,直到所有的样品归为一类为止。 2,4 1,5 6,5 * * §3.4 系统聚类法 目录 上页 下页 返回 结束 3.4.4 分类数的确定 如何选择分类数是各种聚类方法中的主要问题之一。 在K均值聚类法中聚类之前需要指定分类数,谱系聚类法(系统聚类法)中我们最终得到的只是一个树状结构图,从图中可以看出存在很多类,但问题是如何确定类的最佳个数。 确定分类数的问题是聚类分析中迄今为止尚未完全解决的问题之一,主要的障碍是对类的结构和内容很难给出一个统一的定义,这样就给不出从理论上和实践中都可行的虚无假设。 实际应用中人们主要根据研究的目的,从实用的角度出发,选择合适的分类数。 * * §3.4 系统聚类法 目录 上页 下页 返回 结束 Demir-men曾提出了根据树状结构图来分类的准则: 准则1:任何类都必须在邻近各类中是突出的,即各类重心之间距离必须大。 准则2:各类所包含的元素都不要过分地多。 准则3:分类的数目应该符合使用的目的。 准则4:若采用几种不同的聚类方法处理,则在各自的聚类图上应发现相同的类。 * * §3.4 系统聚类法 目录 上页 下页 返回 结束 由于上述的聚类方法得到的结果是不完全相同的。于是产生一个问题:我们应当选择哪一个结果为好?为了解决这个问题,需要研究系统聚类法的性质,现简要介绍如下。 * * §3.4 系统聚类法 目录 上页 下页 返回 结束 * * § 3.6 K-均值聚类和有序样品的聚类 目录 上页 下页 返回 结束 3.6.1 K-均值法(快速聚类法) 非谱系聚类法是把样品(而不是变量)聚集成K个类的集合。类的个数K可以预先给定,或者在聚类过程中确定。非谱系方法可应用于比系统聚类法大得多的数据组。 非谱系聚类法或者一开始就对元素分组,或者从一个构成各类核心的“种子”集合开始。选择好的初始构形,将能免除系统的偏差。一种方法是从所有项目中随机地选择“种子”点或者随机地把元素分成若干个初始类。 * * § 3.6 K-均值聚类和有序样品的聚类 目录 上页 下页 返回 结束 K-均值法, 又叫快速聚类法,是Macqueen于1967年提出的,其思想是把每个样品聚集到其最近形心(均值)类中去。在它的最简单说明中,这个过程由下列三步所组成: 把样品粗略分成K个初始类; 进行修改,逐个分派样品到其最近均值的类中去(通常用标准化数据或非标准化数据计算欧氏距离)。重新计算接受新样品的类和失去样品的类的形心(均值); 重复第2步,直到各类无元素进出。 基本思想:开始先初步分类 ,然后按照某种最优的原则修改不合理的分类,直到类分的比较合理为止 选凝聚点 初始分类 修改分类 最 终 分 类 分类是否合理 0.723 …. 0.505 0.433 0.385 发芽势x2 0.777 …. 0.693 0.600 0.707 发芽率x1 12 . … 3 2 1 产区号 初部分为m个类将样本归入最近的类 计算重心作为新的m个凝聚点 计算重心作为新的m个凝聚点 直到m个凝聚点不再改变(即分类不变) 初部分为2

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档