应用多元统计6.pptx

  1. 1、本文档共127页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
应用多元统计6

第六章 聚类分析目 录§6.1 聚类分析的方法§6.2 距离与相似系数§6.3 系统聚类法§6.4 系统聚类法的性质及类的确定§6.5 动态聚类法§6.6 有序样品聚类法(最优分割法) §6.7 变量聚类方法补充:CLUSTER过程简介第六章 §6.1 聚类分析的方法什么是聚类分析 聚类分析又称群分析,它是研究对样品或指标进行分类的一种多元统计方法. 所谓的“类”,通俗地说就是相似元素的集合.聚类分析是按照观测样品(或变量)取值的相似程度,对观测样品(或变量)进行分类,使在同一类内的观测样品(或变量)是相似的,不同类间的观测(或变量)是不相似的. 什么是分类?它只不过是将一个观测对象指定到某一类(组).第六章 §6.1 聚类分析的方法什么是聚类分析 分类的问题可以分成两种: 一种是对当前所研究的问题已知它的类别数目,且知道各类的特征(如分布规律,或知道来自各类的训练样本),我们的目的是要将另一些未知类别的个体正确归属于其中某一类,这是第五章判别分析所要解决的问题. 另一种是事先不知道研究的问题应分为几类,更不知道观测到的个体的具体分类情况,我们的目的正是需要通过对观测数据所进行的分析处理,选定一种度量个体接近程度的量,确定分类数目,建立一种分类方法,并按亲近程度对观测对象给出合理的分类.这种问题在实际中大量存在,它正是聚类分析所要解决的问题. 第六章 §6.1 聚类分析的方法什么是聚类分析 聚类分析是实用多元统计分析的一个新的分支,正处于发展阶段,理论上虽不很完善,但由于它能够解决许多实际问题,因此这个方法很受人们的重视,特别是和其他方法联合起来使用往往效果更好. 例如对一批观测对象先用聚类分析进行分类,然后用判别分析的方法建立判别准则,用以对新的观测对象判别归类.第六章§6.1 聚类分析的方法聚类分析的方法可分为以下几种: (1) 系统聚类法:开始每个对象自成一类,然后每次将最相似的两类合并,合并后重新计算新类与其他类的距离或相近性测度.这一过程一直继续直到所有对象归为一类为止. 并类的过程可用一张谱系聚类图描述. (2) 调优法(动态聚类法) ; (3) 最优分割法(有序样品聚类法) ; (4) 模糊聚类法 ; (5) 图论聚类法 ; (6) 聚类预报法 .第六章§6.1 聚类分析的方法聚类分析的类型及目的 聚类分析根据分类对象的不同分为R型和Q型两大类,R型是对变量(指标)进行分类处理,Q型是对样品进行分类处理. R型聚类分析的目的有以下方面: ① 了解变量间及变量组合间的亲疏关系; ② 对变量进行分类; ③ 根据分类结果及它们之间的关系,在每一类中选择有代表性的变量作为典型变量,利用少数几个典型变量进一步作分析计算,如进行回归分析或Q型聚类分析等.第六章§6.1 聚类分析的方法Q型聚类分析的目的 Q型聚类分析的目的主要是对样品进行分类.分类的结果是直观的,且比传统分类方法更细致、全面、合理.当然使用不同的分类方法通常会得到不同的分类结果.对任何观测数据都没有唯一“正确的”的分类方法. 实际应用中,常采用不同的分类方法,对数据进行分析计算,以便对分类提供意见,并由实际工作者决定所需要的分类数及分类情况. 本章重点介绍应用最广泛的系统聚类法;且主要讨论Q型聚类分析问题.第六章§6.2 距离与相似系数 为了对观测样品(或变量)进行分类,就必须研究它们之间的关系.描述样品之间亲疏相似程度的统计量很多,目前用得最多的是距离和相似系数,这两个统计量的定义与变量的类型密切相关,我们首先介绍变量的类型.第六章§6.2 距离与相似系数 定量变量和定性(属性)变量根据变量取值的不同,变量可分为两大类:定量变量和定性(属性)变量. 定量变量就是我们通常所说的连续变量,例如长度、重量、产量、人口、温度等,它们是由测量或计数、统计所得到的量, 这类变量具有数值特征,称为定量变量. 第六章§6.2 距离与相似系数 定量变量和定性(属性)变量 定性(属性)变量只有性质上的差异,例如天气(阴、晴),性别(男、女),产品质量分为 上 中 下三个等级. 这些变量都是 属性(定性)变量. 属性变量又分为名义变量和有序变量二种: (1)有序变量:其值有明确的逻辑次序,但各个值之间的距离并不清楚. (2) 名义变量:其值之间无逻辑次序,可按任何次序排序编码.例如性别,职业,地区,…都是名义变量. 不同类型的变量在定义距离或相似性测度时有很大差异.第六章§6.2 距离与相似系数数据的变换方法 设有n个样品,每个样品测得m项指标(变量),得观测数据xij(i=1,…,n,j=1,…,m).通常将数据列成以下表格的形式.第六章§6.2 距离与相似系数数据的变换方法 1. 中心化变换变换后数据的均

文档评论(0)

peili2018 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档