聚类分析原理与SPSS实现.ppt

  1. 1、本文档共100页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类分析原理与SPSS实现

SPSS中的聚类分析 Spss中的聚类功能常用的有两种: 快速聚类(迭代过程): K-Means Cluster 系统聚类:Hierarchical Cluster 一、Hierarchical Cluster聚类 系统聚类由两种方法:分解法和凝聚法。 系统聚类的功能:即可进行样品的聚类,也可进行变量的聚类。 系统聚类的原理:即我们前面介绍过的系统聚类方法的原理和过程。 系统聚类的中要进行以下的选择: 数据的标准化 测度方法的选择:距离方法的选择或相似性、关联程度的选择。 聚类方法的选择:即以什么方法聚类,spss中提供了7中方法可进行选择。 输出图形的选择:树形图或冰柱图。 系统聚类 冰柱图因其样子非常象冬天房顶垂下的冰柱得名,它以图形的方式显示层次聚类分析结果,一般从冰柱图的最后一行开始观察,第一列表示类数。两样品之间的“х”表示将其两边的样品(类)联结起来聚成新类。 K-Means Cluster原理 首先,选择n个数值型变量参与聚类分析,最后要求的聚类数为k个; 其次,由系统选择k个(聚类的类数)观测量(也可由用户指定)作为聚类的种子。 第三,按照距离这些类中心的距离最小的原则把所有观测量(样品)分派到各类重心所在的类中去。 第四,这样每类中可能由若干个样品,计算每个类中各个变量的均值,以此作为第二次迭代的中心; 第五,然后根据这个中心重复第三、第四步,直到中心的迭代标准达到要求时,聚类过程结束。 K-Means Cluster聚类过程 数据标准化 【Analyze】?【Descriptive Statistics】? 【Descriptives】?主对话框:将需要标准化的变量选入【Variable(s)】? 【Save standardized values as variables】 ? 【OK】 由Analyze——Classify ——K-Means Cluster 将个变量放入Variable ; 输入最后聚类的个数; 快速聚类 聚类分析的注意事项 聚类分析的注意事项 聚类分析的注意事项 快速聚类的最终类中心点 ? 表中的数据表示各个类别在各变量上的平均值。 ? 利用方差分析表可以判断所分的类别是否合理。从表中可以看出,分类后各变量在不同类别之间的差异都是显著的(P值均接近0) Number of Cases in each Cluster:快速聚 类的最终结果 快速聚类的类成员情况 各样本距其所在的类中心的欧氏距离 各类中的成员数 无论那种分类方法,最终要分成多少类别,并不是完全由方法本身来决定,研究者应结合具体问题而定 聚类分析是一种探索性的数据分析方法。相同的数据采用不同的分类方法,也会的得到不同的分类结果。分类的结果没有对错之分,只是分类标准不同而已 使用聚类方法时,首先要明确分类的目的,再考虑选择哪些变量(或数据)参与分类,最后才需要考虑方法的选择。至于分类结果是否合理,该如何解释,更多取决于研究者对所研究问题的了解程度、相关的背景知识和经验 从数据要求上看 参与分类的变量首先应符合要求 各变量的取值不应有数量级上的过大差异,否则会对分类结果产生较大影响。这时需要对变量进行标准化处理(SPSS提供的层次聚类法中在聚类时可以选择对变量做标准化处理,而K-均值聚类法则需要单独做标准化处理,尔后再进行聚类) 各变量间不应有较强的相关关系。若两个强相关的变量同时参与聚类分析,在测度距离时,就加大了它们的贡献,而其他变量则相对被削弱 注意对分类结果的检验 分类结果是否合理取决于它是否“有用”,分类结果是否可靠和稳定,则需要反复聚类和比较 一般来说,在所分的类别中,各类所包含的对象(样本或变量)的数量应该大致相当。至少这从表面上看更漂亮一些 * * * * * * * * * (e) 第二次分类 动态聚类法 优点:计算量小,方法简便,可以根据经验,先作主观分类。 缺点:结果受选择凝聚点好坏的影响,分类结果不稳定。 选择凝聚点和确定初始分类 凝聚点就是一批有代表性的点,是欲形成类的中心。凝聚点的 选择直接决定初始分类,对分类结果也有很大的影响,由于凝聚点 的不同选择,其最终分类结果也将出现不同。故选择时要慎重.通 常选择凝聚点的方法有: (1) 人为选择,当人们对所欲分类的问题有一定了解时,根据经验,预先确定分类个数和初始分类,并从每一类中选择一个有代表性的样品作为凝聚点。 (2) 重心法 将数据人为地分为A类,计算每一类的重心,将重心作为凝聚点。 (3) 密度法 以某个正数d为半径,以每个样品为球心,落在这个球内的样品数(不包括作为球心的样品)称为这

您可能关注的文档

文档评论(0)

zhuwenmeijiale + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7065136142000003

1亿VIP精品文档

相关文档