实验十二聚类分析.docxVIP

下载本文档

16
0
约3.89千字
约 6页
2019-10-17 发布于广东
举报
版权申诉

实验十二聚类分析.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

实验十二聚类分析 ■聚类分析是研究“物以类聚”问题的多元统计分析方法。 ■聚类分析是一种建立分类的多元统计分析方法，它能够将一批样本（或变量）数据根据其诸多特征，按照在性质上的亲疏程度在没冇先验知识的情况下进行自动分类，产生多个分类结杲。 ■类内部的个体在特征上具有相似性，不同类间个体特征的差异性较大。基本思想： ■分层次聚类和K-均值聚类； ■层次聚类又称系统聚类，是指其聚类过程是按照一定层次进行的； ■层次聚类冇两种类型，Q型聚类和R型聚类。 Q型聚类是对样木（case）进行聚类，R型聚类是对变量（variable）进行聚类。 K-均值聚类又称快速聚类，需事先指定聚类数目K和K个初始类屮心，是一个反复迭代的分类过程，在聚类过程中，样木所属的类会不断调整，直到最终达到稳定为止。注意事项： ■所选择的变量应符合聚类要求。 ■各变量的变量值不应有数量级上的差异。 ■各变量间不应有较强的线性相关关系。层次聚类分析步 ■选择：分析Analyze == ＞分类Classify =＞层次聚类 Hierarchical Cluster; 1 选择分析 Analyze== 分类 Class if y== 层次聚类 H i erarch i ca I Cluster； 2、把参与层次聚类分析的变量选择到变量Variable (s)框中； 3、把一个字符型变量作为标记变量选到标签Lable cases by框中，它将大大增强聚类分析结果的可读性； 4、在聚类Cluster框中选择聚类类型，其中样本Cases表示Q型聚类(默认类型)，变量Variables表示R型聚类； 5、在Display框中选择输出内容。其中统计Statistics表示输出聚类分析的相关统计量，图形Plots表示输出聚类分析的相关图形。 6、单击方法Method按钮指定距离的计算方法,其中聚类方法Cluster Method 框中给出的是计算个体与小类、小类与小类间距离的方法；测量Measure框中给出的是不同变量类型下的个体距离的计算方式。其中 ■ Interval框中的方法适用于连续型定距变量; ■ Counts框屮的方法适用于计数型变量; Binary框中的方法适用于二值变量； 7、如果参与聚类分析的变量存在数量级上的差异，应在数值变换Transform Values框中的标准化Standardize选项中选择消除数量级差的方法，并指定处理是针对变量还是针对样本。By variable表示针对变量，适于Q型聚类分析； By cases表示针对样本，适于R型聚类分析。消除数量量纲的方法包括： None：表示不进行任何处理； Z scores：表示计算Z分数。它将各变量值减去均值后除以标准差。标准化后的变量值平均值为0,标准差为1； Range -1 to 1：表示将各变量值除以全距，处理以后的变量值的范围在-1~1Z间，该方法适于变量值中有负值的变量； Range 0 to 1：表示将各变量值减去最小值后除以全距，处理以后的变量值的范围在0?1之间； Maximum magnitude of 1：表示将各变量值除以最大值。处理以后的变量值的最大值为1; Mean of 1：表示将各变量值除以均值。 Standard deviation of 1：表示将各变量值除以标准差。 8、单击Statistics按钮指定输出哪些统计量。Agglomeration schedule表示输出聚类分析的凝聚状态表；Proximity matrix表示输出个体间的距离矩阵; Cluster Membership框中,None表示不输出样本所属类,Single Solution表示指定输出当分成n类时各样本所属类，是单一解。Range of solution表示指定输出当分成M至n类时各样本所屈类，是多个解。 9、单击Plots按钮指定输出哪种聚类分析图。Dendrogram选项表示输出聚类分析树形图；在Icicle 中指定输出冰挂图，All clusters表示输出聚类分析每个阶段的冰挂图；Specified range of clusters表示只输出某个阶段的冰挂图，输入从第几步开始,到第几步结束,中间间隔几步;在Orientation框中指定如何显示冰挂图，其屮垂直Vertical表示纵向显示，水平Horizontal表示横向水平显示。 10、单击Save按钮可以将聚类分析结果以变量的形式保存到数据编辑窗口中。生成的变量名为clun-m （如clu2-l）,其屮n表示类数（如2） , m表示第 m次分析（如1）。由于不同的距离计算方法会产生不同的聚类分析结果，即使聚成n类，同一样本的类归屈也会因计算方法的不同