- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类与嗨判别分析
第12章 聚类与判别分析 Analyze/Classify 一 聚类分析 研究问题 以学校组织文化、学校组织气氛、校长领导角色等变量是否可将学校分成不同的类别组? 某研究者采用分层整群抽样方法,抽取15所学校,来研究校长领导角色、学校组织气氛、学校组织文化与学校办学水平的关系,让15所学校的教师填写量表,研究者除了探讨变量间的相关外,也想知道如果以此三个量表作为分类依据,是否可将15所学校分成几个类别,以进一步探讨类别间的差异、群组内的相似之处。这不需要进行聚类分析。 聚类分析的基础 目的在于将数据分成几个相异性最大的群组,同时使得群组内部的相似程度最高。 属于探索性分析方法。 常与判别分析一起使用。 聚类分析与判别分析的关系: 相同点: 都是将独立分开的观察值分成不同组别或将观察值分类。 不同点: 判别分析时,组别特性已知 聚类分析时,观察值所属群组特性还未知。 聚类分析的基础 聚类分析的主要方法是使用一组计量数据,加以计算各个体的相似性或相异性,然后使用各种分析方法,将这些个体加以分类,从而能更有效地掌握各类的性质,它所关注的重点是: 如何用数据来表示个体与个体之间的相似性? 如何根据这些相似性将性质类似的个体分为一类? 所有个体分类完成后,对每一类的性质如何描述? 分类后的每一类有何特征,与其它类有何不同之处? 聚类分析的一般步骤 先计算各个体间的距离或组内误差矩阵,然后将最接近的两个个体加以合并成一类,再算出合并后的类间的距离或组内误差矩阵,重复以上计算步骤,直到所有个体合并成同一类。 如果某个分析合并的系数突然变得很大,研究者就可以由此判断应该分成几类。 聚类分析与因素分析 聚类分析与因子分析一样,倾向于艺术层次而非科学 属于探索性分析方法,因为分类数的选取有时会因研究者观点与研究目的不同而有所差异。不过,在聚类分析合并过程中,组内的距离或误差会越来越大,如果某个分析合并的系数突然变得很大,研究者就可以由此判断应该分成几类 变量的聚类分析应用则类似于因素分析。二者执行的程序均在于识别变量的相关组别。因素分析时,只有一个潜在的理论模式,而聚类分析时则蕴涵着一个以上的潜在理论模式。 聚类分析与因素分析 多数实际应用时,二者的主要差别在于因素分析是针对变量进行分组;而聚类分析则是将观察值个体进行分组,即因素分析时,根据因变量(题项)间关系是否密切,将变量进行分类(分为几个层面因素);而聚类分析则经常用在将变量相似程度较高观察值,加以分类,使类与类之间的差异性达到最大,而同一类内的观察值相似性很高。 当然,聚类分析也可以对变量进行分组。 如果聚类分析的对象是变量,则变量聚类分析的结果与变量因素分析的结果,往往会有差异,其原因在于二者处理变量间关系的方式不同,聚类分析所采取的是一种“分层式”的判别,依据个别变量间相关强弱程度逐次合并变量类,而因素分析在合并变量时,则是“同时”考虑到所有变量间的关系。 聚类分析的方法 系统聚类分析法: 适用于观察值个数不多。 系统聚类分析法中,根据观察值或变量之间的距离将最相似的对象结合在一起,以逐次聚类的方式,将观察值分类。计算观察值相似性最常用的方法是欧几里德距离平方法。 如果数据较多时,可选用其中的部分数据进行系统聚类,以此作为决定分类数目的参考。 K-Means聚类分析法(动态聚类分析法): 适用于个数较多或数据文件非常庞大(200以上)。 这时采用K-Means聚类分析法较为适宜,因为观察值数量太多,冰柱图与本树状图二种判别图形在显示时会过于分散,不易于阅读与解释。 如果观察值个数不多,则采用系统聚类分析法较为适宜。通常要事先确定类的数目,进行的分析次数可能较多。 进行聚类分析时需要注意的问题 标准化程序 为避免变量观单位不同而造成距离计算误差,可将不同单位的变量加以转换,常用的是Z分数。如果使用K-Means聚类分析,则分析进行的第一步就是将原始分数标准化。 距离度量 对观察值进行聚类时,度量观察值个体距离最常用的方法是“欧几里德距离平方法”; 对变量进行聚类时,计算变量相似程度最常用的方法则是积差相关法。 进行聚类分析时需要注意的问题 合并类的准则-连结法 方法很多,SPSS提供7种,常用的是组间连结法(between-groups linkage) 组间或称组间平均连结法(默认,绝大多数使用它即可) 组内 近邻法或单一连结法 远邻法或称完全连结法 重心聚类法 中位数聚类法 华德法 聚类分析时的注意选项 数据与图形 数据的类型(连续、计数、二分) 变量属性不同,计算观测值间距离的方法也不同 连续变量(interval data) 计数变量(count) (frequencies)用卡方检验法,检验两集合出现的概率是否相等。 二分变量(binary data):使用二分变量相异
原创力文档


文档评论(0)