实验十二聚类分析.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
实验十二聚类分析 ■聚类分析是研究“物以类聚”问题的多元统计分析方法。 ■聚类分析是一种建立分类的多元统计分析方法,它能够将一批样本(或变 量)数据根据其诸多特征,按照在性质上的亲疏程度在没冇先验知识的情 况下进行自动分类,产生多个分类结杲。 ■类内部的个体在特征上具有相似性,不同类间个体特征的差异性较大。 基本思想: ■分层次聚类和K-均值聚类; ■层次聚类又称系统聚类,是指其聚类过程是按照一定层次进行的; ■层次聚类冇两种类型,Q型聚类和R型聚类。 Q型聚类是对样木(case)进行聚类,R型聚类是对变量(variable)进 行聚类。 K-均值聚类又称快速聚类,需事先指定聚类数目K和K个初始类屮心,是 一个反复迭代的分类过程,在聚类过程中,样木所属的类会不断调整,直 到最终达到稳定为止。 注意事项: ■所选择的变量应符合聚类要求。 ■各变量的变量值不应有数量级上的差异。 ■各变量间不应有较强的线性相关关系。 层次聚类分析步 ■选择:分析Analyze == >分类Classify =>层次聚类 Hierarchical Cluster; 1 选择 分析 Analyze== 分类 Class if y== 层次聚类 H i erarch i ca I Cluster; 2、 把参与层次聚类分析的变量选择到变量Variable (s)框中; 3、 把一个字符型变量作为标记变量选到标签Lable cases by框中,它将大 大增强聚类分析结果的可读性; 4、 在聚类Cluster框中选择聚类类型,其中样本Cases表示Q型聚类(默 认类型),变量Variables表示R型聚类; 5、 在Display框中选择输出内容。其中统计Statistics表示输出聚类分析 的相关统计量,图形Plots表示输出聚类分析的相关图形。 6、 单击方法Method按钮指定距离的计算方法,其中聚类方法Cluster Method 框中给出的是计算个体与小类、小类与小类间距离的方法;测量Measure框 中给出的是不同变量类型下的个体距离的计算方式。其中 ■ Interval框中的方法适用于连续型定距变量; ■ Counts框屮的方法适用于计数型变量; Binary框中的方法适用于二值变量; 7、如果参与聚类分析的变量存在数量级上的差异,应在数值变换Transform Values框中的标准化Standardize选项中选择消除数量级差的方法,并指定处 理是针对变量还是针对样本。By variable表示针对变量,适于Q型聚类分析; By cases表示针对样本,适于R型聚类分析。消除数量量纲的方法包括: None:表示不进行任何处理; Z scores:表示计算Z分数。它将各变量值减去均值后除以标准差。 标准化后的变量值平均值为0,标准差为1; Range -1 to 1:表示将各变量值除以全距,处理以后的变量值的范 围在-1~1Z间,该方法适于变量值中有负值的变量; Range 0 to 1:表示将各变量值减去最小值后除以全距,处理以后的 变量值的范围在0?1之间; Maximum magnitude of 1:表示将各变量值除以最大值。处理以后的 变量值的最大值为1; Mean of 1:表示将各变量值除以均值。 Standard deviation of 1:表示将各变量值除以标准差。 8、 单击Statistics按钮指定输出哪些统计量。Agglomeration schedule表 示输出聚类分析的凝聚状态表;Proximity matrix表示输出个体间的距离矩阵; Cluster Membership框中,None表示不输出样本所属类,Single Solution表 示指定输出当分成n类时各样本所属类,是单一解。Range of solution表示指 定输出当分成M至n类时各样本所屈类,是多个解。 9、 单击Plots按钮指定输出哪种聚类分析图。Dendrogram选项表示输出聚 类分析树形图;在Icicle 中指定输出冰挂图,All clusters表示输出聚类分 析每个阶段的冰挂图;Specified range of clusters表示只输出某个阶段的冰 挂图,输入从第几步开始,到第几步结束,中间间隔几步;在Orientation框中 指定如何显示冰挂图,其屮垂直Vertical表示纵向显示,水平Horizontal表示 横向水平显示。 10、 单击Save按钮可以将聚类分析结果以变量的形式保存到数据编辑窗口 中。生成的变量名为clun-m (如clu2-l),其屮n表示类数(如2) , m表示第 m次分析(如1)。由于不同的距离计算方法会产生不同的聚类分析结果,即使 聚成n类,同一样本的类归屈也会因计算方法的不同

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档