- 1、本文档共31页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
教育多元统计学与SPSS软件8聚类分析
第八章 聚类分析
聚类分析是一种研究“物以类聚”问题的多元统计方法,按照一定的分类原则,将指标或样品聚为一类。
第一节 概述
聚类分析根据分类对象的不同,分为R型聚类分析与Q型类分析两种。用于指标的分类用R型聚类分析,用于样品的分类用Q型聚类分析。
聚类分析的基本思想:先将分类对象(指标或样品)各自看成一类,然后选择一个统计量来衡量分类对象的相似程度,根据其大小先将两两对象聚成一类,如此下去,直至所有对象都聚成一类(或预分的类)为止。
将聚类的整个过程作成一张谱系图,然后根据实际问题的需要,选择一个合适的分类标准,便能得到所要分的类。当一类中多于两个指标时,需要计算相关指数R2(相关系数的平方,也称判定系数)的平均数R2,将其值最大的指标作为典型指标。
Σr2
R2=
k-1
其中,r为类内指标之间的相关系数,k为类内的指标个数。
1.聚类方法
一般多元统计书上介绍8种方法:
最短距离法:将两类样本间的最短距离作为类与类之间的距离,具有单调性,空间收缩很快。
最长距离法:与最短距离法相反,将两类样本间的最长距离作为类与类之间的距离,也具有单调性,聚类空间呈扩张状态。
中间距离法:类间距离介于以上两种方法之间,聚类空间处于守衡状态,不能保证类距离总是单调的。
重心法:上述3种方法在定义类间距离时均未考虑新类中所含样本点的多少,存在不合理之处,该方法可以纠正上述问题。与中间距离法类似,聚类空间守衡,不能保证类距离总是单调的。
类平均法:为了更多地吸取类内样本点信息,定义类间距离为两类中样本点间距离平方的平均。该法空间守衡,又是单调的,是较为理想的系统聚类方法。
可变类平均法:在计算类间距离的公式中引入了聚集强度系数β(β1),β取不同的值可能会得到不同的聚类结果,选择合适的β值,以达到最佳聚类效果,一般认为取-1/4时效果较好。该方法仍具有单调性,比类平均法更为合理一些。
可变法:将可变类平均法中的聚集强度系数β引进中间距离法就形成了该方法。
离差平方和法:又称Ward法,利用方差分析原理进行聚类。
2.常用的数据变换方法
中心化变换、标准化变换、极差正规化变换、对数变换
3.距离
绝对值、欧氏、切比雪夫、兰氏、马氏、斜交空间
4.相似系数
积差相关系数、夹角余弦、指数相似系数
第二节 系统聚类法
聚类方法有多种,如系统聚类、动态聚类、有序样品聚类及模糊聚类等,下面进行简要介绍。
系统聚类方法(也称分层聚类方法):将p个指标(样品)看成p类,将性质最接近的两类聚成一个新类,得到p-1类,再从中将性质最接近的两类聚成一个新类,得到p-2类,依此类推,直至所有的指标(样品)均聚为一类。
动态聚类方法:先将指标(样品)粗略的分成若干类,然后根据某种最优原则进行调整,反复多次,直至不能调整时为止。
有序样品聚类方法:先将指标(样品)根据某种原因排成次序,要求次序相邻的指标(样品)聚成一类。
模糊聚类方法:将模糊数学理论用于聚类分析中产生的方法。
本节结合SPSS软件介绍系统聚类方法。
1.SPSS软件计算步骤
选择“Analyze”→“Classify”→“Hierarchical Cluster”项。弹出如图8.2.1所示的对话框。
1.1 Variables栏
存放聚类变量。
1.2 Label Cases by栏
存放标识变量,如用指标名称、编号、姓名来标明各指标或样品最后聚到哪一类,不指定时,系统自动将序号作为标识变量。
1.3 Cluster选项
① Cases
对样品进行聚类,Q型聚类。
② Variables
图8.2.1 分层聚类分析主对话框
对指标进行聚类,R型聚类。
1.4 Display选项
① Statistics
输出统计量。
② Plots
输出图形。
1.5 Statistics按钮
图8.2.2 Statistics对话框
① Agglomeration schedule复选项
凝聚状态表,显示聚类过程中每一步合并的类或观测值,根据该表跟踪聚类的合并过程。
② Proximity Matrix复选项
各项间的距离(R型聚类为相关系数)矩阵。
③ Cluster Membership类成员栏
显示每个观测值被分到的类或显示若干步聚类过程。
None:不显示类成员表。
Single solution:输入数值n,显示聚为n类时各观测值的归属情况。
Range of solutions:要求列出某个范围中每一步各观测值所属的类,如输入3、5,则输出结果中列出3类、4类与5类所包括的观测值。
1.6 Plots按钮
图8.2.3 Plots对话框
① Dendrogram选项
树形图。
② Icicle选项
冰柱图栏。
All clust
您可能关注的文档
- (培训学校培训中心)章程.doc
- 06题宝洁牵手春雷女童公关策划方案.doc
- (2017最新)事故管理制度.doc
- 04工程项目考核及奖金结算发放办法.doc
- 10橡胶厂各装置设备检验配合及管线检修方案.docx
- 0元竞拍活动方案.doc
- 07-09年江苏省(南通市)建设工程计价解释答疑.doc
- 10劳动防护用品管理制度.docx
- 1农村土地家庭承包合同书.doc
- 1焦炉气压缩机中修方案.doc
- 人教版英语5年级下册全册教学课件.pptx
- 部编人教版2年级上册语文全册教学课件含单元及专项复习.pptx
- 人教版8年级上册英语全册教学课件(2021年8月修订).pptx
- 教科版(2017版)6年级上册科学全册课件+课时练.pptx
- 人教版PEP版6年级英语下册全册教学课件(2022年12月修订).pptx
- 部编人教版2年级下册语文全册课件(2021年春修订).pptx
- 人教版数学6年级下册全册教学课件(2023年教材).pptx
- 湘少版5年级下册英语全册教学课件(2021年春修订).pptx
- 人教PEP4年级下册英语全册教学课件 [2}.pptx
- 人教版6年级上册英语全册教学课件.pptx
文档评论(0)