网站大量收购独家精品文档,联系QQ:2885784924

教育多元统计学与SPSS软件8聚类分析.doc

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
教育多元统计学与SPSS软件8聚类分析

第八章 聚类分析 聚类分析是一种研究“物以类聚”问题的多元统计方法,按照一定的分类原则,将指标或样品聚为一类。 第一节 概述 聚类分析根据分类对象的不同,分为R型聚类分析与Q型类分析两种。用于指标的分类用R型聚类分析,用于样品的分类用Q型聚类分析。 聚类分析的基本思想:先将分类对象(指标或样品)各自看成一类,然后选择一个统计量来衡量分类对象的相似程度,根据其大小先将两两对象聚成一类,如此下去,直至所有对象都聚成一类(或预分的类)为止。 将聚类的整个过程作成一张谱系图,然后根据实际问题的需要,选择一个合适的分类标准,便能得到所要分的类。当一类中多于两个指标时,需要计算相关指数R2(相关系数的平方,也称判定系数)的平均数R2,将其值最大的指标作为典型指标。 Σr2 R2= k-1 其中,r为类内指标之间的相关系数,k为类内的指标个数。 1.聚类方法 一般多元统计书上介绍8种方法: 最短距离法:将两类样本间的最短距离作为类与类之间的距离,具有单调性,空间收缩很快。 最长距离法:与最短距离法相反,将两类样本间的最长距离作为类与类之间的距离,也具有单调性,聚类空间呈扩张状态。 中间距离法:类间距离介于以上两种方法之间,聚类空间处于守衡状态,不能保证类距离总是单调的。 重心法:上述3种方法在定义类间距离时均未考虑新类中所含样本点的多少,存在不合理之处,该方法可以纠正上述问题。与中间距离法类似,聚类空间守衡,不能保证类距离总是单调的。 类平均法:为了更多地吸取类内样本点信息,定义类间距离为两类中样本点间距离平方的平均。该法空间守衡,又是单调的,是较为理想的系统聚类方法。 可变类平均法:在计算类间距离的公式中引入了聚集强度系数β(β1),β取不同的值可能会得到不同的聚类结果,选择合适的β值,以达到最佳聚类效果,一般认为取-1/4时效果较好。该方法仍具有单调性,比类平均法更为合理一些。 可变法:将可变类平均法中的聚集强度系数β引进中间距离法就形成了该方法。 离差平方和法:又称Ward法,利用方差分析原理进行聚类。 2.常用的数据变换方法 中心化变换、标准化变换、极差正规化变换、对数变换 3.距离 绝对值、欧氏、切比雪夫、兰氏、马氏、斜交空间 4.相似系数 积差相关系数、夹角余弦、指数相似系数 第二节 系统聚类法 聚类方法有多种,如系统聚类、动态聚类、有序样品聚类及模糊聚类等,下面进行简要介绍。 系统聚类方法(也称分层聚类方法):将p个指标(样品)看成p类,将性质最接近的两类聚成一个新类,得到p-1类,再从中将性质最接近的两类聚成一个新类,得到p-2类,依此类推,直至所有的指标(样品)均聚为一类。 动态聚类方法:先将指标(样品)粗略的分成若干类,然后根据某种最优原则进行调整,反复多次,直至不能调整时为止。 有序样品聚类方法:先将指标(样品)根据某种原因排成次序,要求次序相邻的指标(样品)聚成一类。 模糊聚类方法:将模糊数学理论用于聚类分析中产生的方法。 本节结合SPSS软件介绍系统聚类方法。 1.SPSS软件计算步骤 选择“Analyze”→“Classify”→“Hierarchical Cluster”项。弹出如图8.2.1所示的对话框。 1.1 Variables栏 存放聚类变量。 1.2 Label Cases by栏 存放标识变量,如用指标名称、编号、姓名来标明各指标或样品最后聚到哪一类,不指定时,系统自动将序号作为标识变量。 1.3 Cluster选项 ① Cases 对样品进行聚类,Q型聚类。 ② Variables 图8.2.1 分层聚类分析主对话框 对指标进行聚类,R型聚类。 1.4 Display选项 ① Statistics 输出统计量。 ② Plots 输出图形。 1.5 Statistics按钮 图8.2.2 Statistics对话框 ① Agglomeration schedule复选项 凝聚状态表,显示聚类过程中每一步合并的类或观测值,根据该表跟踪聚类的合并过程。 ② Proximity Matrix复选项 各项间的距离(R型聚类为相关系数)矩阵。 ③ Cluster Membership类成员栏 显示每个观测值被分到的类或显示若干步聚类过程。 None:不显示类成员表。 Single solution:输入数值n,显示聚为n类时各观测值的归属情况。 Range of solutions:要求列出某个范围中每一步各观测值所属的类,如输入3、5,则输出结果中列出3类、4类与5类所包括的观测值。 1.6 Plots按钮 图8.2.3 Plots对话框 ① Dendrogram选项 树形图。 ② Icicle选项 冰柱图栏。 All clust

文档评论(0)

haihang2017 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档