- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第十三章 聚类分析 在实际工作中,我们经常会遇到样品或指标的分类问题。根据事先是否已经建立类别,分类问题又可以分为判别分析和聚类分析。判别分析研究事先已经建立类别的情况,即将样品或指标按己知的类别进行归类:聚类分析则适用于事先没有分类的情况,即如何将样品或指标进行分类的问题。本章主要介绍聚类分析。聚类分析包含的内容很广泛,可以有系统聚类法、K均值聚类法、动态聚类法、分裂法、最优分割法、模糊聚类法、图论聚类法、聚类预报等多种方法。在本章中主要介绍系统聚类法和K均值聚类法。 13.1 基本数学原理 系统聚类法是聚类分析中应用最为广泛的一种方法,它的基本原理是:首先将一定数量的样品或指标各自看成一类,然后根据样品(或指标〉的亲疏程度,将亲疏程度最高的两类进行合并。然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。重复这一过程,直至将所有的样品(或指标)合并为一类。 1.系统聚类法是根据样品或指标之间的亲疏程度来进行合并。衡量亲疏程度的指标有两种,即距离和相似系数。距离是将每个样品看成是m个变量对应的m维空间中的一个点,然后在该空间中所定义的,距离越近,则亲密程度越高。相似系数接近于1或-1时,认为样品或指标之间的性质比较接近:相似系数接近于0时,认为样品或指标之间是无关的。下面是一些常用的距离和相似系数及其定义方法。 (1)欧氏距离 (2)切比雪夫距离 (3)明可斯基距离 (4)夹角余弦(相似系数) (5)相关系数 (6)自定义距离 (具体公式可参见统计分析课本……) 2.常用的聚类方法 常用的聚类方法主要有以下几种。 1)最短距离法 该算法将两个类之间的距离定义为一个类的所有个体与另一个类的所有个体之间的距离的最小者。 2)最长距离法 与最短距离法相反,该法用个体之间的最远距离来定义类与类之间的距离。 3)中间距离法 该法在定义类与类之间的距离时,采用的是最短距离与最长距离之间的中间距离。计算公式略去。 4)重心法 该法将两类之间的距离定义为两类重心之间的距离。它考虑了每一类所包含的样品数,每一类重心即为该类样品的均值。 5)离差平方和法 该法是Ward根据方差分析的原理得到的,如果分类比较合理,则同类样品之间的离差平方和较小,类与类之间的离差平方和较大。 利用离差平方和分类的效果比较好,它要求样品之间的距离必须是欧氏距离。 6)平均联结法 前面介绍了用类之间的最小距离、最大距离和中间距离等联结类的方法,还可以用取平均的方法联结类。平均联结法分为两种,即组间平均联结法和组内平均联结法。 组间平均联结法将两个类所有成对个案(各来自一个类)间的平均距离作为类间距离并要求该距离最小。它利用了两个类中成对所有个案的信息。 组内平均联结法的目的则是要使产生类的所有个案之间的平均距离尽可能地小。 3.数据的转换 进行聚类分析时,各变量之间有可能存在不同量纲、不同数量级的情况,因此存在转换数据的必要性。转换数据的目的是使这些变量具有可比性。常用的数据转换方法有中心化变换、极差正规化和标准化等。 4、层次聚类分析的几点说明 1)SPSS中的层次聚类分析有Q型聚类和R型聚类两种: Q型聚类就是对样本数据进行聚类,R型聚类是对变量进行聚类。 Q型聚类是使具有共同特征的样本聚集在一起,下一步可以分别对不同类中的样本作分析;R型聚类是使具有共同特征的变量聚集在一起,下一步可以从不同类中分别挑选出具有代表性的变量作分析,从而减少分析变量的个数。 2)应注意聚类分析所选择的变量能否反应所要聚类的特征聚类分析的目的是找到不同类群体中样本数据的特点,因此在聚类分析选定变量时,应注意所选择的变量能否反应所要聚类的特征。例如:如果希望对学校规模作聚类分析,但如果分析时没有选定诸如:在校学生人数、教师人数、校园面积、设备、设施情况等变量,那么聚类后的结果就无法反映关于学校规模的特征。 3)应注意聚类分析的变量数据是否存在数量级上的差异由于聚类分析是以距离来度量样本亲疏程度的。从各种距离的定义上看,变量不同的数量级别将对距离产生较大的影响。 为克服上述问题的存在,聚类分析之前,应查看变量数据之间是否存在数量级上的差异。如果数据在数量级上存在差异,应首先进行标准化处理,然后再作聚类分析。 13.2 SPSS实现 13.2.1 对话框介绍 在Analyze主菜单中用鼠标指向Cla
您可能关注的文档
最近下载
- 2025年运动康复师 膝关节骨关节炎(KOA)运动处方习题库.doc VIP
- 铝包钢芯耐热铝合金绞线.docx VIP
- 2025年康复治疗师《糖尿病康复》运动处方习题库.doc VIP
- 东方证券2021ESG报告.PDF VIP
- 2025年康复治疗师《康复体育与运动处方》习题库.doc VIP
- 山东省日照市2025-2026学年高三上学期开学校际联考语文试卷及答案.pdf VIP
- 合肥工业大学介绍PPT模板.pptx VIP
- 2025年历届广西单招试题及答案.docx
- 2025年康复治疗师《人工关节置换术后康复》习题库.doc VIP
- 2025年康复治疗师《骨折术后康复分期训练》习题库.doc VIP
文档评论(0)