[理学]SPSS课件-09聚类分析.ppt

  1. 1、本文档共53页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[理学]SPSS课件-09聚类分析

第9章 聚类分析 授课教师:董梅 dongmeixz@ 学习内容 层次聚类(分层聚类,系统聚类) K-均值聚类(快速聚类) 两阶段聚类 1 聚类分析的基本介绍 在现实生活中,分类问题是十分常见的 根据经济发展水平把各个国家分成发达国家、中等发达国家、发展中国家 利用气候指标作气候区划分 这些分类中,有的事先并不知道存在什么类别,完全按照反映对象特征的数据把对象进行分类,这在统计上称为聚类分析;有的则是在事先有了某种分类标准之后,判定一个新的研究对象应该归属到哪一类别,这在统计上则称为判别分析(discriminant analysis) 本节主要介绍聚类分析方法 1 聚类分析的基本介绍 把相似的东西放在一起,从而使得类别内部的“差异”尽可能小,而类别之间的“差异”尽可能大 聚类分析就是按照对象之间的“相似”程度把对象进行分类 分类: 按照变量对所观察的样本进行分类称为Q型聚类(把行分为若干类) 按照样本对多个变量进行分类,则称为R型聚类(把列指标分为若干类) 1 聚类分析的基本介绍 在对样本进行分类时(此种分类最常用),度量样本之间的相似性使用点间距离计算方法: 欧氏距离(Euclidean distance)最常用 平方欧氏距离(Squared Euclidean distance) Block距离(Block distance) Chebychev距离(Chebychev distance) 马氏距离(Minkovski distance) 在对变量进行分类时,度量变量之间的相似性常用相似系数方法 夹角余弦法, Pearson相关系数法 2 层次聚类(hierarchical cluster) 层次聚类又称系统聚类,或分层聚类 层次聚类事先不需要确定要分多少类,聚类过程一层层进行,最后得出所有可能的类别结果,研究这根据具体情况确定最后需要的类别。 计算类间距离(与上面介绍的点间距离不同)的方法有很多,不同方法会得到不同的聚类结果,常用的是离差平方和法(Ward’s method),又称Ward法 2 层次聚类(hierarchical cluster) 例题:根据我国31个省市自治区2006年的6项主要经济指标数据,采用层次聚类法进行分类,并对结果进行分析 (表格数据未显示完整,有31个省份的6个经济指标) 2 层次聚类(hierarchical cluster) 以上结果的说明 首先把31个地区各自作为一类(共有31类)。第1步是把距离最近的两个地区21(海南)和地区30(宁夏)合并成一类。第2步被合并的是21和地区29(青海),这里的“21”实际上是指在第1步中被合并的类别,只是用“21”表示21(海南)所在的类别 练习: 根据练8-1聚类分析-系统聚类(各省学生体质)的数据,对各省学生进行分类 3 K-均值聚类(K-means cluster) 也被称为快速聚类(quick cluster) 按照一定方法选取一批聚类中心,让样品向最近的聚类中心聚集,形成初始分类,然后按照最近距离原则不断修改不合理分类,直至合理为止 需要确定要分的类别数目K 需要确定K个类别的初始聚类中心(可由SPSS指定聚类中心),依次计算每个样本到K个聚类中心的距离欧氏距离,经过反复迭代直到把每个样本分到指定的类别中。 4 两阶段聚类 两阶段分类是根据不同变量类型进行的假设分类。 假设:连续变量为正态分布 分类变量为多项式分布 步骤: 1、对每个观测量考查一遍,确定类中心。 2、使用凝聚法对特征数的叶节点分组 主要思想:采用似然距离测度 3 K-均值聚类(K-means cluster) 分成4类的最终聚类中心 表中的数据表示各个类别在各变量上的平均值。如,第一类的2.88521表示被分到第一类的地区(北京和上海)标准化后的人均GDP平均值 3 K-均值聚类(K-means cluster) 分类后各个变量在类别之间的方差分析表 利用方差分析表可以判断所分的类别是否合理。从表中可以看出,分类后各变量在不同类别之间的差异都是显著的(P值均接近0) 3 K-均值聚类(K-means cluster) 分成4类时每一类的地区数量 由该表可以看出,第一类包括2个地区,第二类包括11个地区,第三类包括4个地区,第四类包括14个地区 3 K-均值聚类(K-means cluster) 每个地区所属的类别 3 K-均值聚类(K-means cluster) 河北,山西,辽宁,黑龙江,安徽,福建,江西,河南,湖北,湖南,广西,四川,云南,陕西 江苏,浙江,山东,广东 天津,内蒙古,吉林,海南,重庆,贵州,西藏,甘肃,青海,宁夏,

文档评论(0)

ipbohn97 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档