现代统计学分析方法与应用多变量的图表示法.ppt

现代统计学分析方法与应用多变量的图表示法.ppt

  1. 1、本文档共128页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
现代统计学分析方法与应用多变量的图表示法

* 中国人民大学六西格玛质量管理研究中心 * * 中国人民大学六西格玛质量管理研究中心 * §10.4 聚类方法 目录 上页 下页 返回 结束 需要指出的是,离差平方和法只能得到局部最优解。至今还没有很好的办法以较少的计算求得精确最优解。 * 中国人民大学六西格玛质量管理研究中心 * §10.4 聚类方法 目录 上页 下页 返回 结束 (4)分类数的确定 到目前为止,我们还没有讨论过如何确定分类数,聚类分析的目的是要对研究对象进行分类,因此如何选择分类数成为各种聚类方法中的主要问题之一。谱系聚类法(系统聚类法)中我们最终得到的只是一个树状结构图,从图中可以看出存在很多类,但问题是如何确定类的最佳个数。 确定分类数的问题是聚类分析中迄今为止尚未完全解决的问题之一,主要的障碍是对类的结构和内容很难给出一个统一的定义,这样就给不出从理论上和实践中都可行的虚无假设。实际应用中人们主要根据研究的目的,从实用的角度出发,选择合适的分类数。Demir-men曾提出了根据树状结构图来分类的准则: * 中国人民大学六西格玛质量管理研究中心 * §10.4 聚类方法 目录 上页 下页 返回 结束 准则1:任何类都必须在邻近各类中是突出的,即各类重心之间距离必须大。 准则2:各类所包含的元素都不要过分地多。 准则3:分类的数目应该符合使用的目的。 准则4:若采用几种不同的聚类方法处理,则在各自的聚类图上应发现相同的类。 系统聚类中每次合并的类与类之间的距离也可以作为确定类数的一个辅助工具。在系统聚类过程中,首先把离得近的类合并,所以在并类过程中聚合系数(Agglomeration Coeffi- cients)呈增加趋势,聚合系数小,表示合并的两类的相似程度较大,两个差异很大的类合到一起,会使该系数很大。如果以y轴为聚合系数,x轴表示分类数,画出聚合系数随分类数的变化曲线,会得到类似于因子分析中的碎石图,可以在曲线开始变得平缓的点选择合适的分类数。 * 中国人民大学六西格玛质量管理研究中心 * §10.4 聚类方法 目录 上页 下页 返回 结束 (5)系统聚类法的性质 一般而言,不同的方法聚类的结果不完全相同。最短距离法适用于条形的类。最长距离法、重心法、类平均法、离差平方和法适用于椭圆形的类。 现在的许多统计软件都包含有系统聚类法的程序,只要将数据输入,可很方便地将上述八种方法全部算出,并画出聚类图。本书中我们将介绍SPSS软件实现聚类分析的过程。 由于上述的聚类方法得到的结果是不完全相同的。于是产生一个问题:我们应当选择哪一个结果为好?为了解决这个问题,需要研究系统聚类法的性质,现简要介绍如下。 * 中国人民大学六西格玛质量管理研究中心 * §10.4 聚类方法 目录 上页 下页 返回 结束 * 中国人民大学六西格玛质量管理研究中心 * §10.4 聚类方法 目录 上页 下页 返回 结束 * 中国人民大学六西格玛质量管理研究中心 * §10.4 聚类方法 目录 上页 下页 返回 结束 上式中(K)是最短距离法、(S)是最长距离法、(C)是重心法,(W)是离差平方和法,(G)是类平均法。归纳起来说,和类平均法相比,最短距离法、重心法使空间浓缩;最长距离法、离差平方和法使空间扩张。太浓缩的方法不够灵敏,太扩张的方法当样本大时容易失真。类平均法比较适中,相比其他方法,类平均法不太浓缩也不太扩张,故许多书推荐这个方法。 有关系统聚类法的性质,学者们还从其他角度提出了比较优与劣的原则。将n个样品,欲分为k类,有人定义一个分类函数(或叫损失函数),然后寻找这个函数的最优解,在某些条件下,最短距离法的解是最优的,而系统聚类法的其他方法都不具有这个性质,故最短距离法在实际中也很被推崇。系统聚类法的各种方法的比较仍是值得研究的一个课题,例如,有人用随机模拟作了研究,发现最长距离法不可取。 * 中国人民大学六西格玛质量管理研究中心 * §10.4 聚类方法 目录 上页 下页 返回 结束 二、K-均值法 非谱系聚类法是把样品(而不是变量)聚集成K个类的集合。类的个数K可以预先给定,或者在聚类过程中确定。因为在计算机计算过程中无须确定距离(或相似系数矩阵),也无须贮存数据,所以,非谱系方法可应用于比系统聚类法大得多的数据组。 非谱系聚类法或者一开始就对元素分组,或者从一个构成各类核心的“

文档评论(0)

zhuliyan1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档