第九章SPSS的聚类分析资料.pptVIP

下载本文档

148
0
约6.67千字
约 41页
2016-10-17 发布于湖北
举报
版权申诉

第九章SPSS的聚类分析资料.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

例题 8.2 收集到意大利、韩国、罗马尼亚、法国、中国、美国、俄罗斯以及热心观众分别给300名运动员平均打分的数据，希望分析各国裁判员的打分标准是否具有相似性。 R聚类聚类数目的确定聚类数目确定尚无统一标准，一般原则：各类所包含的元素都不应过多分类数目应符合分析的目的分层聚类中可以将类间距离作为确定类数目的辅助工具聚类过程中，类间距离呈增加趋势类间距离小，类的相似性大；距离大，相似性小绘制碎石图（X轴为类距离，Y轴为类数） K-Means聚类 K-Means聚类也称快速聚类，仍将数据看成k维空间上的点，仍以距离作为测度个体“亲疏程度”的指标，并通过牺牲多个解为代价换得高的执行效率克服分层聚类在大样本时产生的困难，提高聚类效率做法：通过用户事先指定聚类数目的方式提高效率分层聚类可以对不同的聚类数而产生一系列的聚类解，而快速聚类只能产生单一的聚类解 K-Means聚类核心步骤：第一，指定聚类数目K 第二，确定K个初始类中心用户指定方式系统指定方式第三，根据距离最近原则进行分类依次计算每个样本数据点到K个类中心点的欧式距离，并按距K个类中心点距离最短的原则将所有样本分成K类第四，重新确定K个类中心中心点的确定原则是，依次计算各类中k个变量的均值，并以均值点作为K个类的中心点第五，判断是否已满足中止聚类分析的条件条件有两个：一是迭代次数（SPSS默认为10）；二是类中心点偏移程度，即新确定的类中心点距上个类中心点的最大偏移量小于指定的量（SPSS默认为0.02）时中止聚类 K-Means聚类分析的操作步骤 1. 选择选项Analyze－Classify－K-Means Cluster 2.选定参与K-Means聚类的变量放入Variables框中。 3.选择一个字符型变量作为标记变量放入Label Cases框中，增加分析结果的可读性。 4.在Number of Clusters框中输入聚类数目，该数应小于样本数。 5.如果用户自行指定初始类中心点，则单击Centers按钮，并在Read initial from框后给出存放初始类中心的SPSS数据文件名；否则本步可略去。 6.在Method框中指定聚类过程是否调整类中心点。其中，Iterate and classify表示在聚类分析的每一步都重新确定类中心点（SPSS默认）；Classify only表示聚类分析过程中类中心点始终为初始类中心点，此时仅进行一次迭代。 7. 单击Iterate按钮确定中止聚类的条件。在Maximum iterations框后输入最大迭代次数，在Convergence criterion框后输入类中心的偏移量。另外，Use running means选项，选中表示每当一个样本被分配到一类时便立即重新计算新的类中心点，此时类中心点与样本分配的前后顺序有关；不选该项表示只有当完成了所有样本的类分配后再计算类中心，该方式可节省运算时间，通常不选中该选项 8. 单击Save按钮将聚类分析的部分结果以SPSS变量的形式保存到数据编辑窗口中，其中Cluster membership表示保存样本所属类的类号；Distance from cluster center表示保存样本距各自类中心点的距离。 9. 单击Option按钮确定输出哪些相关分析结果和缺失值的处理方式。Statistics框中，Initial cluster centers表示输出初始类中心点；ANOVA table表示以聚类分析产生的类为控制变量，以k个变量为观测变量进行单因素方差分析，并输出各个变量的方差分析表；Cluster information for each case表示输出样本分类信息及距所属类中心点的距离例题 8.3 根据五座商厦购物环境和服务质量的顾客评分数据，利用K-Means聚类分析方法按照优秀、良好、合格的总体水平将它们分类编号购物环境服务质量 A商厦 73 68 B商厦 66 64 C商厦 84 82 D商厦 91 88 E商厦 94 90 分类购物环境服务质量优秀 95 95 良好 85 85 合格 65 62 例题 8.4 用2001年全国31个省市自治区各类小康好人现代化指数的数据，对地区进行K-Means聚类分析，要求分成3类，初始类中心点由SPSS自行确定第九章 SPSS的聚类分析聚类分析的意义物以类聚学生关系、客户细分聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法能够将一批样本（或变量）数据根据其诸多特征，按照在性质上的亲疏程度（各变量取值上的总体差异程度）在没有先验知识（没有事先指定的分类标准）的情况下进行自动分类，产生多个分类结果类内部的个体在特征上具有相似性，不