SPSS统计分析教程-聚类分析和判别分析.docxVIP

下载本文档

12
0
约1.01万字
约 31页
2024-03-04 发布于广西
举报
版权申诉

SPSS统计分析教程-聚类分析和判别分析.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚类分析和判别分析

聚类分析是将样本个体或指标变量按其具有的特性进行分类的统计方法。聚类分析可以对样品聚类，称为样本聚类或Q型聚类；也可以对指标聚类，称为指标聚类或R型聚类。在SPSS中选择菜单Analyze→Classify（聚类）可以完成聚类分析。

13.1两步聚类

两步聚类（TwoStepCluster）是智能聚类方法的一种，它以样品（case）作为聚类对象（Q型聚类），聚类的变量可以同时接纳连续变量和分类变量。

例13-1?表13-1是患有某疾病患者的病例数据，性别中1、2分别表示男、女，血压中1、2、3分别表示低、正常、高，胆固醇浓度中1、2分别表示正常、高。试对患者进行聚类分析。

表13-120例患者病例数据

解?以编号、年龄、性别、血压、胆固醇、钠含量、钾含量为变量名将表13-1建立成20行7列的数据文件。

选择菜单Analyze→Classify→TwoStepCluster，弹出TwoStepClusterAnalysis（两步聚类分析）主对话框（图13-1），将性别、血压、胆固醇送入CategoricalVariables（分类变量）框，将年龄、钠含量、钾含量送入ContinuousVariables（连续变量）框。DistanceMeasure框用于指定类间距离的度量方式，Log-likelihood用于连续变量服从正态分布，分类变量服从多项式分布，且所有变量都相互独立的情况；Euclidean，即欧式距离，用于所有变量都是连续变量的情况。

图13-1TwoStepClusterAnalysis主对话框

单击Options按钮，弹出Options（选项）对话框，见图13-2，可以进行奇异值处理、内存分配、变量的标准化等操作。单击Output按钮，弹出Output（输出）对话框，见图13-3，可以对输出进行设置。本例均可以依照图13-2、13-3设置，设置完毕，单击主对话框中OK按钮。

图13-2Options对话框

图13-3Output对话框

主要输出结果见数据文件中新增的变量及图13-4、13-5、13-6、13-7。本例将20个样品分为两类，数据文件中新增变量（变量名为“TSC_一个数值”，Label为TwoStepClusterNumber）的数值就是每个样品所属的类别号。图13-4给出了模型概要和聚类质量图，在模型概要中包括聚类方法（两步聚类）、使用的变量个数“6”以及最终的聚类个数“2”；在聚类质量图中显示聚类的效果，分3个等级：差、一般、好，本次聚类效果一般。

图13-4模型概要和聚类质量图

双击模型概要可在模型浏览器中查看更多信息，如图13-5所示。在右侧下部的View下拉菜单中选择PredictorImportance，在右侧可查看预测变量重要性，如图13-6所示。在左侧下部的View下拉菜单中选择Clusters，并单击某个单元格，可查看所选类别下该变量的频数，以及所选类别下该变量的分布及不分类时该变量分布的比较，如图13-7（a）所示。在左侧图中单击第一行Cluster后的第一个单元格，可选中第一列，按住Ctrl，再单击第二个单元格，可同时选中第一列和第二列，此时右侧可显示各个变量在不同类中的分布，如图13-7（b）所示。

图13-5模型概要中的更多信息

图13-6View菜单中的预测变量的重要性

图13-7（a）各个变量的分布

图13-7（b）不同类别的比较

13.2K类中心聚类

K类中心聚类（K-MeansCluster）是一种对样品进行聚类的方法，聚类命令为QuickCluster，故又称为快速聚类，对大样本的样品聚类很有效。该方法要求用户事先指定要将样品分为多少类，根据距类中心最小欧氏距离的原则，采用迭代的方法，对样品进行聚类。

例13-2?某小学10名9岁男学生6个项目的智力测验得分如表13-2所示，用K类中心聚类对这10名学生的智力状态进行分类。

表13-2某小学10名9岁男学生6个项目的智力测验得分

解?以?x?1?至?x?6?为变量名，将表13-2中数据建立为10行6列的数据文件。

选择菜单Analyze→Classify→K-MeansCluster，弹出如图13-8所示K-MeansClusterAnalysis主对话框，将变量名?x?1?至?x?6?送入Variables（聚类变量）框中，在NumberofClusters（聚类数）框中键入3，选中Method（聚类方法）下面的Iterateandclassify（迭代且聚类）。

K类中心聚类主对话框（图13-8）右上方有三个按钮：Iterate、Save和Options。

图13-8K-MeansClusterAnalysis主对话