聚类与嗨判别分析.pptVIP

下载本文档

3
0
约5.29千字
约 45页
2019-01-05 发布于福建
举报
版权申诉

聚类与嗨判别分析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚类与嗨判别分析

第12章　聚类与判别分析 Analyze/Classify 一　聚类分析研究问题以学校组织文化、学校组织气氛、校长领导角色等变量是否可将学校分成不同的类别组？某研究者采用分层整群抽样方法，抽取15所学校，来研究校长领导角色、学校组织气氛、学校组织文化与学校办学水平的关系，让15所学校的教师填写量表，研究者除了探讨变量间的相关外，也想知道如果以此三个量表作为分类依据，是否可将15所学校分成几个类别，以进一步探讨类别间的差异、群组内的相似之处。这不需要进行聚类分析。聚类分析的基础目的在于将数据分成几个相异性最大的群组，同时使得群组内部的相似程度最高。属于探索性分析方法。常与判别分析一起使用。聚类分析与判别分析的关系：相同点：都是将独立分开的观察值分成不同组别或将观察值分类。不同点：判别分析时，组别特性已知聚类分析时，观察值所属群组特性还未知。聚类分析的基础聚类分析的主要方法是使用一组计量数据，加以计算各个体的相似性或相异性，然后使用各种分析方法，将这些个体加以分类，从而能更有效地掌握各类的性质，它所关注的重点是：如何用数据来表示个体与个体之间的相似性？如何根据这些相似性将性质类似的个体分为一类？所有个体分类完成后，对每一类的性质如何描述？分类后的每一类有何特征，与其它类有何不同之处？聚类分析的一般步骤先计算各个体间的距离或组内误差矩阵，然后将最接近的两个个体加以合并成一类，再算出合并后的类间的距离或组内误差矩阵，重复以上计算步骤，直到所有个体合并成同一类。如果某个分析合并的系数突然变得很大，研究者就可以由此判断应该分成几类。聚类分析与因素分析聚类分析与因子分析一样，倾向于艺术层次而非科学属于探索性分析方法，因为分类数的选取有时会因研究者观点与研究目的不同而有所差异。不过，在聚类分析合并过程中，组内的距离或误差会越来越大，如果某个分析合并的系数突然变得很大，研究者就可以由此判断应该分成几类变量的聚类分析应用则类似于因素分析。二者执行的程序均在于识别变量的相关组别。因素分析时，只有一个潜在的理论模式，而聚类分析时则蕴涵着一个以上的潜在理论模式。聚类分析与因素分析多数实际应用时，二者的主要差别在于因素分析是针对变量进行分组；而聚类分析则是将观察值个体进行分组，即因素分析时，根据因变量（题项）间关系是否密切，将变量进行分类（分为几个层面因素）；而聚类分析则经常用在将变量相似程度较高观察值，加以分类，使类与类之间的差异性达到最大，而同一类内的观察值相似性很高。当然，聚类分析也可以对变量进行分组。如果聚类分析的对象是变量，则变量聚类分析的结果与变量因素分析的结果，往往会有差异，其原因在于二者处理变量间关系的方式不同，聚类分析所采取的是一种“分层式”的判别，依据个别变量间相关强弱程度逐次合并变量类，而因素分析在合并变量时，则是“同时”考虑到所有变量间的关系。聚类分析的方法系统聚类分析法：适用于观察值个数不多。系统聚类分析法中，根据观察值或变量之间的距离将最相似的对象结合在一起，以逐次聚类的方式，将观察值分类。计算观察值相似性最常用的方法是欧几里德距离平方法。如果数据较多时，可选用其中的部分数据进行系统聚类，以此作为决定分类数目的参考。 K－Means聚类分析法（动态聚类分析法）：适用于个数较多或数据文件非常庞大（200以上）。这时采用K－Means聚类分析法较为适宜，因为观察值数量太多，冰柱图与本树状图二种判别图形在显示时会过于分散，不易于阅读与解释。如果观察值个数不多，则采用系统聚类分析法较为适宜。通常要事先确定类的数目，进行的分析次数可能较多。进行聚类分析时需要注意的问题标准化程序为避免变量观单位不同而造成距离计算误差，可将不同单位的变量加以转换，常用的是Z分数。如果使用K－Means聚类分析，则分析进行的第一步就是将原始分数标准化。距离度量对观察值进行聚类时，度量观察值个体距离最常用的方法是“欧几里德距离平方法”；对变量进行聚类时，计算变量相似程度最常用的方法则是积差相关法。进行聚类分析时需要注意的问题合并类的准则－连结法方法很多，SPSS提供7种，常用的是组间连结法（between-groups linkage）组间或称组间平均连结法（默认，绝大多数使用它即可）组内近邻法或单一连结法远邻法或称完全连结法重心聚类法中位数聚类法华德法聚类分析时的注意选项数据与图形数据的类型（连续、计数、二分）变量属性不同，计算观测值间距离的方法也不同连续变量（interval data）　计数变量（count）（frequencies）用卡方检验法，检验两集合出现的概率是否相等。二分变量（binary data）：使用二分变量相异