第10章spss的聚类分析.pptVIP

下载本文档

14
0
约1.74千字
约 15页
2017-08-13 发布于河南
举报
版权申诉

第10章spss的聚类分析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

分类物以类聚、人以群分；但根据什么分类呢？如要想把中国的县分类，就有多种方法可以按照自然条件来分，比如考虑降水、土地、日照、湿度等，也可考虑收入、教育水准、医疗条件、基础设施等指标；既可以用某一项来分类，也可以同时考虑多项指标来分类。聚类分析对一个数据，既可以对变量(指标)进行分类(相当于对数据中的列分类)，也可以对观测值(事件，样品)来分类(相当于对数据中的行分类)。当然，不一定事先假定有多少类，完全可以按照数据本身的规律来分类。本章要介绍的分类的方法称为聚类分析（cluster analysis）。对变量的聚类称为R型聚类，而对观测值聚类称为Q型聚类。它们在数学上是无区别的。如何度量距离远近？如果想要对100个学生进行分类，而仅知道他们的数学成绩，则只好按照数学成绩分类；这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。如果还知道他们的物理成绩，这样数学和物理成绩就形成二维平面上的100个点，也可以按照距离远近来分类。三维或者更高维的情况也是类似；只不过三维以上的图形无法直观地画出来而已。两个距离概念按照远近程度来聚类需要明确两个概念：一个是点和点之间的距离，一个是类和类之间的距离。点间距离有很多定义方式。最简单的是欧氏距离。当然还有一些和距离相反但起同样作用的概念，比如相似性等，两点越相似度越大，就相当于距离越短。两个距离概念由一个点组成的类是最基本的类；如果每一类都由一个点组成，那么点间的距离就是类间距离。但是如果某一类包含不止一个点，那么就要确定类间距离，类间距离是基于点间距离定义的：比如两类之间最近点之间的距离可以作为这两类之间的距离，也可以用两类中最远点之间的距离或各类的中心之间的距离来作为类间距离。事先要确定分多少类：快速聚类这里的快速聚类（k-means cluster，也叫quick cluster k-均值聚类）要求你先说好要分多少类。假定你说分3类，这个方法还进一步要求你事先确定3个点为“聚类种子”(SPSS软件自动为你选种子)；也就是说，把这3个点作为三类中每一类的基石。事先要确定分多少类：快速聚类然后，根据和这三个点的距离远近，把所有点分成三类。再把这三类的中心(均值)作为新的基石或种子(原来 “种子”就没用了)，再重新按照距离分类。如此迭代下去，直到达到停止迭代的要求（比如，各类最后变化不大了，或者迭代次数太多了）。显然，前面的聚类种子的选择并不必太认真，它们很可能最后还会分到同一类中呢。事先不用确定分多少类：分层聚类另一种聚类称为分层聚类或系统聚类（hierarchical cluster）。开始时，有多少点就是多少类。它第一步先把最近的两类（点）合并成一类，然后再把剩下的最近的两类合并成一类；这样下去，每次都少一类，直到最后只有一大类为止。越是后来合并的类，距离就越远。分层聚类可以进行R型和Q型聚类。 * 第10章 SPSS的聚类分析在计算时，各种点间距离和类间距离的选择是通过统计软件的选项实现的。不同的选择的结果会不同，但一般不会差太多。快速聚类的基本操作 1.菜单：Analyze→Classify → K-Means Cluster 2.将若干参与聚类的变量选择到Variables框中 3.选择一个字符型变量作为标记变量放入Label Cases中。 4.在Number of Cluster中输入聚类数目，该数目应小于样本数。 5.如果用户自行指定初始类中心点，按Center 快速聚类的基本操作 6.在Method框中选择类中心点确定方法。 7.单击Iterate按钮确定快速聚类的迭代终止条件。 8.单击Save按钮将聚类分析的部分结果以SPSS变量的形式保存到数据编辑窗口中。 9.单击Option按钮确定输出那些相关分析结果和缺失值的处理方式。注意k-均值聚类只能做Q型聚类，如要做R型聚类，需要把数据阵进行转置。快速聚类的应用举例利用2001年全国31各省市自治区各类小康和现代化指数的数据，对地区进行快速聚类分析，要求分成3类，初始类中心点由SPSS自行确定。