- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五章 聚类与判别分析(一) 主要内容 聚类及判别分析 快速样本聚类 分层聚类 判别分析 5.1 聚类与判别概述 聚类和判别都是分类学的基本方法,而分类学是人类认识世界的基础科学。掌握聚类和判别的方法对进一步运用统计这一工具来认识世界有着极其重要的意义。 聚类有两种基本的方法:快速样本聚类和分层聚类。 判别的分类方法就是先根据事物特点的变量值和它们所属的类求出判别函数,再根据判别函数对未知所属类别的事物进行分类的一种分析方法。 5.1 聚类与判别概述 5.1.1 聚类分析 聚类分析(Cluster Analysis )是根据事物本身的特性研究个体分类的方法。聚类分析的原则是同一类中的个体有较大的相似性,不同类的个体差异很大。根据分类对象不同分为样品聚类和变量聚类。 样品聚类在统计学中又称为Q 型聚类。用SPSS 的术语来说就是对事件(cases )进行聚类,或是说对观测量进行聚类。是根据被观测的对象的各种特征,即反映被观测对象的特征的各变量值进行分类。 变量聚类在统计学中有称为R 型聚类。反映事物特点的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。 5.1 聚类与判别概述 5.1.1 聚类分析 根据分类对象的不同,样品(观测量)聚类和变量聚类两种: 样品聚类:对观测量(Case)进行聚类(不同的目的选用不同的指标作为分类的依据,如选拔运动员与分课外活动小组) 变量聚类:找出彼此独立且有代表性的自变量,而又不丢失大部分信息。在生产活动中不乏有变量聚类的实例,如:衣服号码(身长、胸围、裤长、腰围)、鞋的号码。变量聚类使批量生产成为可能。 5.1 聚类与判别概述 5.1.2 判别分析 判别分析(Discriminant )是根据表明事物特点的变量值和它们所属的类求出判别函数,根据判别函数对未知所属类别的事物进行分类的一种分析方法。在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断。如动物学家、植物学家对动物、植物如何分类的研究和某个动物、植物属于哪一类、哪一目、哪一纲的判断等。 5.1 聚类与判别概述 5.1.3 Classify 的功能SPSS 中进行聚类和判别分析的统计过程,是由菜单“Analyze ”令“Classify’”导出的。选择“Classify’”,可以显示三个过程命令:(1) K-Means Cluster 进行快速聚类过程。(2) Hierarchical Cluster 进行样本聚类和变量聚类过程。(3) Discriminant 进行判别分析过程。 5.2 快速聚类 5.2.1 快速聚类的概念 K - Means Cluster 执行快速样本聚类,使用k 均值分类法对观测量进行聚类。可以完全使用系统默认值执行该命令,也可以对聚类过程设置各种参数进行人为的干预。例如,可以事先指定把数据文件的观测量分为几类;指定使聚类过程中止的判据,或迭代次数等。进行快速样本聚类首先要选择用于聚类分析的变量和类数。 参与聚类分析的变量必须是数值型变量,且至少要有一个。为了清楚地表明各观测量最后聚到哪一类,还应该指定一个表明观测量特征的变量作为标识变量,例如编号、姓名之类的变量。聚类必须大于等于2 ,但聚类数不能大于数据文件中的观测量数。 5.2 快速聚类 5.2.1 快速聚类的概念 如果选择了n 个数值型变量参与聚类分析,最后要求聚类数为k 。那么可以由系统首先选择k 个观测量(也可以由用户指定)作为聚类的种子,n 个变量组成n 维空间。每个观测量在n 维空间中是个点。K 个事先指定的观测量就是k 个聚类中心点,也称为初始类中心。按照距这几个类中心的距离最小原则把观测量分派到各类中心所在地类中;形成第一次迭代形成的k 类。根据组成每一类的观测量计算各变量均值,每一类中的n 个均值在n 维空间中又形成k 个点,这就是第二次迭代的类中心,按照这种方法依次迭代下去,直到达到指定的迭代次数或中止迭代的判据要求时,迭代停止,聚类结束。 从上述分析过程可以看出,K-Means Cluster 不仅是快速样本聚类过程,而且是一种逐步聚类分析。所谓逐步聚类分析就是先把被聚对象进行初始分类,然后逐步调整,得到最终分类。 5.2 快速聚类 5.2.1 快速聚类的概念 例1为研究儿童生长发育的分期,调查1253 名1个月至7 岁儿童的身高(cm )、体重(kg )、胸围(cm )和坐高(cm )资料。资料作如下整理:先把1个月至7 岁划成 19 个月份段,分月份算出各指标的平均值,将第1月的各指标平均值与出生时的各指标平均值比较,求出月平均增长率(% ) ,然后第2 月起的各月份指标平均值均与前一月比较,亦求出月平均增长率(% ) ,结果见下表。欲将儿童生长发育分为四期,故指定聚类
文档评论(0)