[理学]SPSS课件-09聚类分析.ppt

下载文档 降价啦

2
0
约4.03千字
约 53页
2018-03-01 发布于浙江
举报
版权申诉
保障服务

[理学]SPSS课件-09聚类分析.ppt

1、本文档共53页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

[理学]SPSS课件-09聚类分析

第9章聚类分析授课教师：董梅 dongmeixz@ 学习内容层次聚类（分层聚类，系统聚类） K-均值聚类（快速聚类）两阶段聚类 1 聚类分析的基本介绍在现实生活中，分类问题是十分常见的根据经济发展水平把各个国家分成发达国家、中等发达国家、发展中国家利用气候指标作气候区划分这些分类中，有的事先并不知道存在什么类别，完全按照反映对象特征的数据把对象进行分类，这在统计上称为聚类分析；有的则是在事先有了某种分类标准之后，判定一个新的研究对象应该归属到哪一类别，这在统计上则称为判别分析(discriminant analysis) 本节主要介绍聚类分析方法 1 聚类分析的基本介绍把相似的东西放在一起，从而使得类别内部的“差异”尽可能小，而类别之间的“差异”尽可能大聚类分析就是按照对象之间的“相似”程度把对象进行分类分类：按照变量对所观察的样本进行分类称为Q型聚类（把行分为若干类）按照样本对多个变量进行分类，则称为R型聚类（把列指标分为若干类） 1 聚类分析的基本介绍在对样本进行分类时（此种分类最常用），度量样本之间的相似性使用点间距离计算方法：欧氏距离(Euclidean distance)最常用平方欧氏距离(Squared Euclidean distance) Block距离(Block distance) Chebychev距离(Chebychev distance) 马氏距离(Minkovski distance) 在对变量进行分类时，度量变量之间的相似性常用相似系数方法夹角余弦法， Pearson相关系数法 2 层次聚类(hierarchical cluster) 层次聚类又称系统聚类，或分层聚类层次聚类事先不需要确定要分多少类，聚类过程一层层进行，最后得出所有可能的类别结果，研究这根据具体情况确定最后需要的类别。计算类间距离(与上面介绍的点间距离不同)的方法有很多，不同方法会得到不同的聚类结果，常用的是离差平方和法(Ward’s method)，又称Ward法 2 层次聚类(hierarchical cluster) 例题：根据我国31个省市自治区2006年的6项主要经济指标数据，采用层次聚类法进行分类，并对结果进行分析（表格数据未显示完整，有31个省份的6个经济指标） 2 层次聚类(hierarchical cluster) 以上结果的说明首先把31个地区各自作为一类(共有31类)。第1步是把距离最近的两个地区21(海南)和地区30(宁夏)合并成一类。第2步被合并的是21和地区29(青海)，这里的“21”实际上是指在第1步中被合并的类别，只是用“21”表示21(海南)所在的类别练习：根据练8-1聚类分析-系统聚类（各省学生体质）的数据，对各省学生进行分类 3 K-均值聚类(K-means cluster) 也被称为快速聚类(quick cluster) 按照一定方法选取一批聚类中心，让样品向最近的聚类中心聚集，形成初始分类，然后按照最近距离原则不断修改不合理分类，直至合理为止需要确定要分的类别数目K 需要确定K个类别的初始聚类中心（可由SPSS指定聚类中心），依次计算每个样本到K个聚类中心的距离欧氏距离，经过反复迭代直到把每个样本分到指定的类别中。 4 两阶段聚类两阶段分类是根据不同变量类型进行的假设分类。假设：连续变量为正态分布分类变量为多项式分布步骤： 1、对每个观测量考查一遍，确定类中心。 2、使用凝聚法对特征数的叶节点分组主要思想：采用似然距离测度 3 K-均值聚类(K-means cluster) 分成4类的最终聚类中心表中的数据表示各个类别在各变量上的平均值。如，第一类的2.88521表示被分到第一类的地区(北京和上海)标准化后的人均GDP平均值 3 K-均值聚类(K-means cluster) 分类后各个变量在类别之间的方差分析表利用方差分析表可以判断所分的类别是否合理。从表中可以看出，分类后各变量在不同类别之间的差异都是显著的(P值均接近0) 3 K-均值聚类(K-means cluster) 分成4类时每一类的地区数量由该表可以看出，第一类包括2个地区，第二类包括11个地区，第三类包括4个地区，第四类包括14个地区 3 K-均值聚类(K-means cluster) 每个地区所属的类别 3 K-均值聚类(K-means cluster) 河北，山西，辽宁，黑龙江，安徽，福建，江西，河南，湖北，湖南，广西，四川，云南，陕西江苏，浙江，山东，广东天津，内蒙古，吉林，海南，重庆，贵州，西藏，甘肃，青海，宁夏，