203年8月9日建模---聚類分析.pptVIP

下载本文档

10
0
约5.69千字
约 109页
2017-04-18 发布于上海
举报
版权申诉

203年8月9日建模---聚類分析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

203年8月9日建模---聚類分析

SPSS 16实用教程;聚类分析的基本概念; 本章介绍统计学中经常使用的分类统计分析方法——聚类分析。主要内容有层次聚类分析、快速聚类分析。其中层次聚类分析根据聚类的对象不同分成Q型聚类和R型聚类。;10.1聚类分析的基本概念; 聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类。聚类分析所使用方法的不同，常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析，所得到的聚类数未必一致。因此我们说聚类分析是一种探索性的分析方法。; 对个案的聚类分析类似于判别分析，都是将一些观察个案进行分类。聚类分析时，个案所属的群组特点还未知。也就是说，在聚类分析之前，研究者还不知道独立观察组可以分成多少个类，类的特点也无所得知。; 变量的聚类分析类似于因素分析。两者都可用于辨别变量的相关组别。不同在于，因素分析在合并变量的时候，是同时考虑所有变量之间的关系；而变量的聚类分析，则采用层次式的判别方式，根据个别变量之间的亲疏程度逐次进行聚类。; 聚类分析的方法，主要有两种，一种是“快速聚类分析方法”（K－Means Cluster Analy- sis），另一种是“层次聚类分析方法”（Hierarchical Cluster Analysis）。如果观察值的个数多或文件非常庞大（通常观察值在200个以上），则宜采用快速聚类分析方法。因为观察值数目巨大，层次聚类分析的两种判别图形会过于分散，不易解释。;10.2 层次聚类分析中的Q型聚类; 层次聚类分析有两种形式，一种是对样本（个案）进行分类，称为Q型聚类，它使具有共同特点的样本聚齐在一起，以便对不同类的样本进行分析；另一种是对研究对象的观察变量进行分类，称为R型聚类。它使具有共同特征的变量聚在一起，以便从不同类中分别选出具有代表性的变量作分析，从而减少分析变量的个数。 ; 本节讲述Q型聚类的原理和SPSS的实现过程，下一节将讲述R型聚类的实现过程。; 定义：层次聚类分析中的Q型聚类，它使具有共同特点的样本聚齐在一起，以便对不同类的样本进行分析。; 层次聚类分析中，测??样本之间的亲疏程度是关键。聚类的时候会涉及到两种类型亲疏程度的计算：一种是样本数据之间的亲疏程度，一种是样本数据与小类、小类与小类之间的亲疏程度。下面讲述这两种类型亲疏程度的计算方法和公式。; 计算公式如下。样本数据之间的亲疏程度主要通过样本之间的距离、样本间的相关系数来度量。SPSS根据变量数据类型的不同，采用不同的测定亲疏程度的方法。; 样本若有k个变量，则可以将样本看成是一个k维的空间的一个点，样本和样本之间的距离就是k维空间点和点之间的距离，这反映了样本之间的亲疏程度。聚类时，距离相近的样本属于一个类，距离远的样本属于不同类。; （1）欧氏距离（Euclidean Distance）两个样本之间的欧氏距离是样本各个变量值之差的平方和的平方根，计算公式为; （2）欧氏距离平方（Squared Euclidean Distance）两个样本之间的欧氏距离平方是各样本每个变量值之差的平方和，计算公式为; （3）Chebychev距离两个样本之间的Chebychev距离是各样本所有变量值之差绝对值中的最大值，计算公式为; （4）Block距离两个样本之间的Block距离是各样本所有变量值之差绝对值的总和，计算公式为; （5）Minkowski距离两个样本之间的Minkowski距离是各样本所有变量值之差绝对值的p次方的总和，再求p次方根。计算公式为; （6）Customized距离（用户自定义距离）两个样本之间的Customized距离是各样本所有变量值之差绝对值的p次方的总和，再求q次方根。计算公式为; 连续变量亲疏程度的度量，除了上面的各种距离外，还可以计算其他统计指标。如Pearson相关系数、Sosine相似度等。;;3顺序或名义变量的样本亲疏程度测量方法;;;4．样本数据与小类、小类与小类之间的亲疏程度测量方法; （1）最短距离法（Nearest Neighbor）以当前某个样本与已经形成小类中的各样本距离的最小值作为当前样本与该小类之间的距离。; （2）最长距离法（Furthest Neighbor）以当前某个样本与已经形成小类中的各样本距离的最大值作为当前样本与该小类之间的距离。; （3）类间平均链锁法（Between-groups Linkage）两个小类之间的距离为两个小类内所有样本间的平均距离。; （4）类内平均链锁法（