07_聚类分析分析.pptVIP

下载本文档

4
0
约1.97千字
约 25页
2016-07-25 发布于湖北
举报
版权申诉

07_聚类分析分析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

现代统计理论与方法;;7.1 聚类分析的基本概念;变量的聚类分析类似于因素分析。两者都可用于辨别变量的相关组别。不同在于，因素分析在合并变量的时候，是同时考虑所有变量之间的关系；而变量的聚类分析，则采用层次式的判别方式，根据个别变量之间的亲疏程度逐次进行聚类。聚类分析的方法主要有两种，一是“快速聚类分析方法”(K－Means Cluster Analysis)，另一是“层次聚类分析方法”(Hierarchical Cluster Analysis)。如果观察值的个数多或文件非常庞大(观察值在200个以上)，则宜采用快速聚类分析方法。;;7.2 层次聚类分析中的Q型聚类;层次聚类分析中的Q型聚类，它使具有共同特点的样本聚齐在一起，以便对不同类的样本进行分析。层次聚类分析中，测量样本之间的亲疏程度是关键。聚类的时候会涉及到两种类型亲疏程度的计算：一种是样本数据之间的亲疏程度，一种是样本数据与小类、小类与小类之间的亲疏程度。下面讨论这两种类型亲疏程度的计算方法和公式。;1．样本距离测量方法;(2)欧氏距离平方(Squared Euclidean Distance) 两个样本之间的欧氏距离平方是各样本每个变量值之差的平方和，计算公式为;（3）Chebychev距离两个样本之间的Chebychev距离是各样本所有变量值之差绝对值中的最大值，计算公式为;（5）Minkowski距离两个样本之间的Minkowski距离是各样本所有变量值之差绝对值的p次方的总和，再求p次方根。计算公式为;2.样本数据与小类、小类与小类之间的亲疏程度测量方法;（1）最短距离法（Nearest Neighbor）以当前某个样本与已经形成小类中的各样本距离的最小值作为当前样本与该小类之间的距离。（2）最长距离法（Furthest Neighbor）以当前某个样本与已经形成小类中的各样本距离的最大值作为当前样本与该小类之间的距离。（3）类间平均链锁法（Between-groups Linkage）两个小类间的距离为两个小类内所有样本间的平均距离。;（4）类内平均链锁法（Within-groups Linkage）与小类间平均链锁法类似，平均距离是对所有样本对的距离求平均值，包括小类间的样本对、小类内的样本对。（5）重心法（Centroid Clustering）将两小类间的距离定义成两小类重心间的距离。每一小类的重心就是该类中所有样本在各变量上的均值代表点。（6）离差平方和法（Ward’s Method）小类合并的方法：在聚类过程中，使小类内各个样本的欧氏距离总平方和增加最小的两小类合并成一类。;变量的量纲不同，观察值的数量级相差悬殊，会导致变量在距离中的作用不均衡，对聚类产生“厚此薄彼”的影响。聚类前要将数据标准化，标准化后的数据是无量纲的。;;菜单选项: Analyze - Classify - Hierarchical Cluster 研究问题 :打开数据文件“森林草原面积” 根据4项指标，对21个国家进行层次聚类（3类至五类）比较分析哪个分类效果较好;7.3 层次聚类分析中的R型聚类;菜单选项: Analyze - Classify - Hierarchical Cluster 研究问题 :打开数据文件“企业经济指标” 将7项指标按层次聚类法分为两类或三类，分析分类结果是否合理;7.4 快速聚类分析;在快速聚类分析中，用户可以自己指定初始的类中心点。如果用户的经验比较丰富，则可以指定比较合理的初始类中心点，否则，需要增加迭代的次数，以保证最终聚类结果的准确性。;快速聚类分析计算过程如下。首先需要用户指定聚类成多少类（比如k类）。然后确定k个类的初始类中心点。SPSS会根据样本数据的实际情况，选择k个由代表性的样本数据作为初始类中心。初始类中心也可以由用户自行指定，需要指定K组样本数据作为初始类中心点。计算所有样本数据点到k个类中心点的欧氏距离，SPSS按照距k个类中心点距离最短原则，把所有样本分派到各中心点所在的类中，形成一个新的k类，完成一次迭代过程。;快速聚类分析计算过程(接上页) SPSS重新确定k个类的中心点。SPSS计算每个类中各个变量的变量值均值，并以均值点作为新的类中心点。重复上面的两步计算过程，直到达到指定的迭代次数或终止迭代的判断要求为止。;;菜单选项: Analyze - Classify - K-Means Cluster 研究问题 :打开数据文件“学生成绩” 根据5门课程成绩，对25名学生进行快速聚类（3类）与层次聚类结果相比较，分析哪种聚类算法对本数据更适合