聚类分析原理与SPSS实现.ppt

下载文档 降价啦

146
0
约1.19万字
约 100页
2018-01-16 发布于江西
举报
版权申诉
保障服务

聚类分析原理与SPSS实现.ppt

1、本文档共100页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

聚类分析原理与SPSS实现

SPSS中的聚类分析 Spss中的聚类功能常用的有两种：快速聚类（迭代过程）： K-Means Cluster 系统聚类：Hierarchical Cluster 一、Hierarchical Cluster聚类系统聚类由两种方法：分解法和凝聚法。系统聚类的功能：即可进行样品的聚类，也可进行变量的聚类。系统聚类的原理：即我们前面介绍过的系统聚类方法的原理和过程。系统聚类的中要进行以下的选择：数据的标准化测度方法的选择：距离方法的选择或相似性、关联程度的选择。聚类方法的选择：即以什么方法聚类，spss中提供了7中方法可进行选择。输出图形的选择：树形图或冰柱图。系统聚类冰柱图因其样子非常象冬天房顶垂下的冰柱得名，它以图形的方式显示层次聚类分析结果，一般从冰柱图的最后一行开始观察，第一列表示类数。两样品之间的“х”表示将其两边的样品(类)联结起来聚成新类。 K-Means Cluster原理首先，选择n个数值型变量参与聚类分析，最后要求的聚类数为k个；其次，由系统选择k个(聚类的类数）观测量（也可由用户指定）作为聚类的种子。第三，按照距离这些类中心的距离最小的原则把所有观测量（样品）分派到各类重心所在的类中去。第四，这样每类中可能由若干个样品，计算每个类中各个变量的均值，以此作为第二次迭代的中心；第五，然后根据这个中心重复第三、第四步，直到中心的迭代标准达到要求时，聚类过程结束。 K-Means Cluster聚类过程数据标准化【Analyze】?【Descriptive Statistics】? 【Descriptives】?主对话框：将需要标准化的变量选入【Variable(s)】? 【Save standardized values as variables】 ? 【OK】由Analyze——Classify ——K-Means Cluster 将个变量放入Variable ；输入最后聚类的个数；快速聚类聚类分析的注意事项聚类分析的注意事项聚类分析的注意事项快速聚类的最终类中心点 ? 表中的数据表示各个类别在各变量上的平均值。 ? 利用方差分析表可以判断所分的类别是否合理。从表中可以看出，分类后各变量在不同类别之间的差异都是显著的(P值均接近0) Number of Cases in each Cluster：快速聚类的最终结果快速聚类的类成员情况各样本距其所在的类中心的欧氏距离各类中的成员数无论那种分类方法，最终要分成多少类别，并不是完全由方法本身来决定，研究者应结合具体问题而定聚类分析是一种探索性的数据分析方法。相同的数据采用不同的分类方法，也会的得到不同的分类结果。分类的结果没有对错之分，只是分类标准不同而已使用聚类方法时，首先要明确分类的目的，再考虑选择哪些变量(或数据)参与分类，最后才需要考虑方法的选择。至于分类结果是否合理，该如何解释，更多取决于研究者对所研究问题的了解程度、相关的背景知识和经验从数据要求上看参与分类的变量首先应符合要求各变量的取值不应有数量级上的过大差异，否则会对分类结果产生较大影响。这时需要对变量进行标准化处理(SPSS提供的层次聚类法中在聚类时可以选择对变量做标准化处理，而K-均值聚类法则需要单独做标准化处理，尔后再进行聚类) 各变量间不应有较强的相关关系。若两个强相关的变量同时参与聚类分析，在测度距离时，就加大了它们的贡献，而其他变量则相对被削弱注意对分类结果的检验分类结果是否合理取决于它是否“有用”，分类结果是否可靠和稳定，则需要反复聚类和比较一般来说，在所分的类别中，各类所包含的对象(样本或变量)的数量应该大致相当。至少这从表面上看更漂亮一些 * * * * * * * * * (e) 第二次分类动态聚类法优点：计算量小，方法简便，可以根据经验，先作主观分类。缺点：结果受选择凝聚点好坏的影响，分类结果不稳定。选择凝聚点和确定初始分类凝聚点就是一批有代表性的点，是欲形成类的中心。凝聚点的选择直接决定初始分类，对分类结果也有很大的影响，由于凝聚点的不同选择，其最终分类结果也将出现不同。故选择时要慎重．通常选择凝聚点的方法有： (1) 人为选择，当人们对所欲分类的问题有一定了解时，根据经验，预先确定分类个数和初始分类，并从每一类中选择一个有代表性的样品作为凝聚点。 (2) 重心法将数据人为地分为A类，计算每一类的重心，将重心作为凝聚点。 (3) 密度法以某个正数d为半径，以每个样品为球心，落在这个球内的样品数(不包括作为球心的样品)称为这