7聚类要点.ppt

下载文档 降价啦

4
0
约8.9千字
约 36页
2017-02-05 发布于湖北
举报
版权申诉
保障服务

7聚类要点.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

7聚类要点

分类俗语说，物以类聚、人以群分。但什么是分类的根据呢？比如，要想把中国的县分成若干类，就有很多种分类法；可以按照自然条件来分，比如考虑降水、土地、日照、湿度等各方面；也可以考虑收入、教育水准、医疗条件、基础设施等指标；既可以用某一项来分类，也可以同时考虑多项指标来分类。第7章聚类分析根据同类事物应具有相近特性，而不同事物在这些特性上差异较大的假定，将所研究的事物进行分类，这种研究方法称为聚类Cluster。在 SPSS中，有两种方法进行聚类分析：一种是并不指定最终的类数，所有样本不断相聚，最终聚为一类，结论将在聚类过程中寻求，这种聚类称为分层（系统）聚类（Hierarchical Cluster Analysis）。另一种是在指定了用于聚类分析的变量和类数后进行的聚类，称为快速样本聚类（K－Means Cluster Analy- sis）。? §7.1分层聚类一、分层聚类的概念事物的性质是通过测量变量来描述的，因此，变量可以揭示事物的一些内部属性。如果以n个数值型变量(n维空间)来描述某一类事物，则一个事物就是n维空间中是一个点。 . 在A、B、C三组数据点群中，每组内部的数据点的坐标数值都比较接近。用几何距离表示就是：由于在同一类中数据点的坐标值比较接近或几何距离比较接近，这类点的总体性质就比较接近。例如：对一批运动员分别测量了他们的百米、万米、摸高、举重、体操等若干项指标，最后根据他们的各项成绩的分析将他们分为几种不同类型的运动员，比如：爆发力型、耐力型、灵巧型等。分层聚类分析就是通过对变量的测量，将比较接近的样本找出来归为一类，进一步再将比较接近的类合并成为新的类，逐层合并直到最后合并成为一类。分层聚类产生的结果不在聚类的开始，也不在聚类的最终，而是在其过程中。研究者将根据聚类过程适当截取聚类结论。二、分层聚类的类型分层聚类有两种类型： “Q聚类”，也可解释为样本聚类。这种聚类将在聚类过程中发现具有共同属性的样本组。 “R聚类”，也可解释为变量聚类。而“R聚类”则可以在某些变量中选择出具有代表性的变量。分层聚类的显示结果不仅有聚类步骤表供数据分析使用，而且有各种图形可以直观地显示结果。聚类分析的图形结果有“树状图”和“冰柱”图。三、分层聚类的命令执行[Analyze]——[Classify]——[Hierarchical Cluster] 选择变量进入“Variable(s)”中按钮“Statistics”将产生输出统计量： “Agglomeration schedule”：生成并类过程表。在表中将显示并类过程中的并类信息，包括：并类距离值、在相应值上的并类类别和类间关系。 “Proximity matrix”：距离矩阵或相关阵。 “Cluster Membership”聚类成员关系表。在并类过程中，各个样本被并到哪一类： “None” 不显示聚类成员关系表。 “Single solution”显示指定类数。指定的类数应当是小于等于样本个数，大于等于1的整数。“Number of Cluster”当聚类到达此指定的数值时，将在输出窗口显示各个样本所属的类。 “Range of solutions” 显示聚类成员在指定并类范围内所属类的关系表。指定的范围也应当是在样本数与1之间的整数。Minimum number of Cluster,最小聚类数； Maximum number of Cluster,最大聚类数。按钮“Plots”将产生聚类图形： “Dendrogram”生成树状图 “Icicle”生成冰柱图 “All clusters”全过程冰柱图 “Specified range of clusters”指定并类范围冰柱图 “None”不生成冰柱图 “Orientaton”图形取向： Vertical竖直 Horizontal水平按钮“Method”为聚类方法选择： ⑴“Cluster”共有七种进行聚类的方法： ①“Between-groups linkage”类间平均法，当两类之间所有样本之间距离的平均值最小时，这两类可以合并为一类。这是系统缺省的方法。(可以理解为m×n个距离的平均值最小) ②“Within- groups linkage”类内平均法，当合并后所有样本的距离的平均值最小时，这两类可以合并为一类。 ③“Nearest neighbor”最短距离法，当两类之间最近的样本之间的距离最小时，这两类可以合并为一类。 ④“Furthest neighbor”最长距离法，当两类之间最远的样本之间的距离最小时，这两类可以合并为一类。 ⑤“Centro