SPSS课件第八章 聚类分析与判别分析解析.ppt

SPSS课件第八章 聚类分析与判别分析解析.ppt

  1. 1、本文档共58页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第8章 聚类分析与判别分析 分类学是人类认识世界的基础科学。聚类分析和判别分析是研究事物分类的基本方法。广泛地应用于自然科学研究、社会科学研究、工农业生产的各个领域。 一、聚类分析 聚类分析 (Cluster Analysis)是根据事物本身的特性研究个体分类的方法。聚类分析的原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。 根据分类对象的不同分为样品聚类(Q聚类)和变量聚类(R聚类)。 (一)样品聚类 样品聚类在统计学中又称为Q型聚类。用SPSS的术语来说就是对事件(Cases)进行聚类,或是说对观测量进行聚类。是根据被观测的对象的各种特征,即反映被观测对象的特征的各变量值进行分类。 样品聚类 样品聚类是进行判别分析之前的必要工作。根据样品聚类的结果进行判别分析,得出判别函数,进而对其他研究对象属于哪一类作出判断。例如在选拔少年运动员时首先要根据少年的身体形态、身体素质、心理素质、生理功能的各种指标(变量)进行测试,得到各种指标的测试值(变量值),据此对少年进行分类。根据分类结果再求得出选材的判别函数,作为选材的依据。 (二)变量聚类 变量聚类在统计学中又称为R型聚类。反映同一事物特点的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。由于人类对客观事物的认识是有限的,往往难以找出彼此独立的有代表性的变量,而影响对问题的进一步认识和研究。例如在回归分析中,由于自变量的共线性导致偏回归系数不能真正反映自变量对因变量的影响等。因此往往先要进行变量聚类,找出彼此独立且有代表性的自变量,而又不丢失大部分信息。 二、判别分析 判别分析是根据表明事物特点的变量值和它们所属的类求出判别函数,根据判别函数对未知所属类别的事物进行分类的一种分析方法。 在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断。 判别分析与聚类分析的不同在于判别分析要求已知一系列反映事物特征的数值变量值及其分类变量值。 分类命令的功能 TwoStep Cluster进行两步聚类过程。 K-Means Cluster进行快速聚类的过程。 Hierarchical Cluster进行样本聚类和变量聚类的过程。 Discriminate进行判别分析的过程。 1、快速样本聚类过程 当要聚成的类数已知时,使用QUICK CLUSTER过程可以很快将观测量分到各类中去。其特点是处理速度快,占用内存少。适用于大样本的聚类分析。 可以完全使用系统默认值进行聚类 2、分层聚类(Hierarchical Cluster) 分层聚类的概念与聚类分析过程 分层聚类反映事物的特点的变量很多,往往根据所研究的问题选择部分变量对事物的某一方面进行分析。 聚类的方法有多种,除了前面介绍的快速聚类法外,最常用的是分层聚类法。根据聚类过程不同又分为凝聚法和分解法。 (1)分解法 聚类开始把所有个体(观测量或变量)都视为属于一大类,然后根据距离和相似性逐层分解,直到参与聚类的每个个体自成一类为止。 (2)凝聚法 聚类开始把参与聚类的每个个体(观测量或变量)视为一类,根据两类之间的距离或相似性逐步合并,直到合并为一个大类为止。 无论哪种方法其聚类原则都是相近的聚为一类,即距离最近或最相似的聚为一类。实际上以上两种方法是方向相反的两种聚类过程。 在Cluster过程中使用的术语 (1)聚类方法 实现分层聚类的具体方法有许多种,各种方法的区别在于如何定义和计算两项(两个个体、两类、或个体与类)之间的距离或相似性。这一点体现在聚类方法(Method)的一系列选择项上。如果不熟悉对聚类方法的定义,可以使用系统默认的方法。需要确定的选择项有: 聚类法的选择:定义、计算两项间距离和相似性的方法,系统默认值:组间平均连接法。 测度方法的选择:对距离和相似性的测度方法又有多种,例如是用欧氏距离还是用欧氏距离的平方测度其相近程度,还是用相关系数测度其相似性?这一点体现在测度方法(Measure)的选择上。如果对测度方法不熟悉,可以采用系统默认的测度方法:欧氏距离平方。 (2)标准化 如果参与聚类的变量的量纲不同会导致错误的聚类结果。因此在聚类过程进行之前必须对变量值进行标准化,即消除量纲的影响。如果参与聚类的变量纲相同,可以使用系统默认值None,要求SPSS对数据不要进行标准化处理。 (3)树形图 树形图表明每一步中被合并的类及其系数值,把各类之间的距离转换成1~25之间的数值。 (4)冰柱图 冰柱图把聚类信息综合到一张图上。如果作纵向冰柱图,则参与聚类的个体各占一列,标以个体(观测量或变量)号或在图纸允许的情况下标以个体的标签;聚类过程中的每一步占一行,标以步的顺序号。如果作横向冰柱图,则参与聚类的个体(观测量或变量)各占一行,聚类的每一步各占一

文档评论(0)

xuefei111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档