[理学]第十一章 聚类分析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[理学]第十一章 聚类分析

设xij为第i个样品的第k个指标,每个样品测量了p个变量,则样品xi和xj之间的距离Dij的定义为: 公式称为明考夫斯基距离,其中q为大于0的正数。 当q=1时, 称为绝对值距离或曼哈顿距离,SPSS称block 当q=2时, 称为欧氏距离(Euclidean distance) 也可定义变量之间距离,常用的定义方法是夹角余弦法和相关系数法。 样品聚类也称Q型聚类,变量聚类又称为R型聚类。 根据样本量的大小,可以使用层次聚类或K中心聚类。当样本量较大,数值变量和分类变量并存时,也可使用二阶段聚类法(two step cluster) 数据输入 1)启动SPSS,进入定义变量工作表,分别用name命令设置6个变量“x1”、“x2”、“x3”, “x4”、“x5”、“x6”,分别代表体斜长、胸深、胸宽、龙骨长、骨盆宽、胫长。小数位(Decimals)依题都定义为2。 统计分析简明步骤: Analyze---Classify---Hierarchical Cluster Variables 框:x1,x2,…x6 选入用于聚类分析的变量 Cluster框:Variables 按指标聚类分析 Statistics √Agglomeration schedule 聚类过程的详细记录 √Proximity matrix 输出变量的相似性矩阵 continue Plot √Dendrogram 用树状图显示聚类分析图 continue Method Interval 计量资料 Perason correlation 选入相关系数对变量进行聚类 continue OK 分析过程说明 1)单击主菜单(Analyze)分析---- Classify(聚类分析)--- Hierarchical Cluster(系统聚类法);弹出“系统聚类”主对话框,将变量“x1,x2,..,x6”置入Variables框内。 在Cluster框内选中Variables,表示按指标分类;另一选项Cases表示按样品聚类(系统默认设置)。 单击Statistics,弹出聚类分析中统计量选择“Hierarchical Cluster Analyses Statistics”对话框。选择所需项目后,按continue返回。 在Statistics统计选项对话框中,选中Agglomeration schedule,可输出聚类过程的详细记录,给出每一步中类合并的细节数据;选中Proximity matrix,则可列出研究对象(样品)或指标(变量)的距离或相似性矩阵。本例两项均选中。 在Cluster Membership单选框组,选择是否给出各样品或指标的聚类结果的列表,可以全部不显示(None)(系统默认),也可以部分显示(Single solution:某一类。Range of solution:某一范围的类)。 单击plots(绘图) ,弹出图形选项对话框,选中Dendrogram(树状图),表示用树状图显示聚类分析图。 Icicle是冰柱图的选项,可以选择性输出聚类结果冰柱图:All Clusters表示要显示所有聚类,none表示不显示,Specified range of Cluster表示要显示某个范围内的聚类。本例选所有聚类(系统默认)。 方向选水平方向显示聚类。 单击method(方法),弹出距离测量方法选项对话框。通过对话框可指定聚类方法、距离测度的方法、对数值进行转换(标准化数值)以及对测度的转换方法。 聚类方法下拉列表用于选择聚类分析中不同类间距离的测量方法。系统默认的是组间连接(类间平均距离)。还有组内连接、最近距离法、最远距离法、重心距离法、中间距离法、最小平方法 度量标准(measure)框用于选择所用的距离种类,根据资料类型的不同有3个选项:interval(区间或计量)、counts(计数资料)、binary(二分类资料)。本例选计量区间(interval): Euclidean distance(欧氏距离) 欧氏平方距离(系统默认) Cosine(相似性测度,余弦) 皮尔逊相关,即相关系数 切比雪夫距离 绝对距离(block) 明考夫斯基距离 自定义距离 距离一般用于对样品的聚类,通常只需采用系统默认的欧氏平方距离;相似系数(夹角余弦、相关系数)一般用于对指标(变量)的聚类。 本例选用相关系数,即皮尔逊相关

文档评论(0)

qiwqpu54 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档