应用多元统计6.pptx

下载文档 降价啦

19
0
约1.94万字
约 127页
2018-06-21 发布于上海
举报
版权申诉
保障服务

应用多元统计6.pptx

1、本文档共127页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

应用多元统计6

第六章聚类分析目录§6.1 聚类分析的方法§6.2 距离与相似系数§6.3 系统聚类法§6.4 系统聚类法的性质及类的确定§6.5 动态聚类法§6.6 有序样品聚类法(最优分割法) §6.7 变量聚类方法补充:CLUSTER过程简介第六章 §6.1 聚类分析的方法什么是聚类分析聚类分析又称群分析,它是研究对样品或指标进行分类的一种多元统计方法. 所谓的“类”，通俗地说就是相似元素的集合.聚类分析是按照观测样品(或变量)取值的相似程度，对观测样品(或变量)进行分类，使在同一类内的观测样品(或变量)是相似的，不同类间的观测(或变量)是不相似的. 什么是分类?它只不过是将一个观测对象指定到某一类(组).第六章 §6.1 聚类分析的方法什么是聚类分析分类的问题可以分成两种: 一种是对当前所研究的问题已知它的类别数目,且知道各类的特征(如分布规律,或知道来自各类的训练样本),我们的目的是要将另一些未知类别的个体正确归属于其中某一类,这是第五章判别分析所要解决的问题. 另一种是事先不知道研究的问题应分为几类,更不知道观测到的个体的具体分类情况,我们的目的正是需要通过对观测数据所进行的分析处理，选定一种度量个体接近程度的量,确定分类数目,建立一种分类方法,并按亲近程度对观测对象给出合理的分类.这种问题在实际中大量存在,它正是聚类分析所要解决的问题. 第六章 §6.1 聚类分析的方法什么是聚类分析聚类分析是实用多元统计分析的一个新的分支,正处于发展阶段,理论上虽不很完善,但由于它能够解决许多实际问题,因此这个方法很受人们的重视,特别是和其他方法联合起来使用往往效果更好. 例如对一批观测对象先用聚类分析进行分类,然后用判别分析的方法建立判别准则,用以对新的观测对象判别归类.第六章§6.1 聚类分析的方法聚类分析的方法可分为以下几种: (1) 系统聚类法：开始每个对象自成一类,然后每次将最相似的两类合并,合并后重新计算新类与其他类的距离或相近性测度.这一过程一直继续直到所有对象归为一类为止. 并类的过程可用一张谱系聚类图描述. (2) 调优法(动态聚类法) ; (3) 最优分割法(有序样品聚类法) ; (4) 模糊聚类法 ; (5) 图论聚类法 ; (6) 聚类预报法 .第六章§6.1 聚类分析的方法聚类分析的类型及目的 聚类分析根据分类对象的不同分为R型和Q型两大类,R型是对变量(指标)进行分类处理,Q型是对样品进行分类处理. R型聚类分析的目的有以下方面: ① 了解变量间及变量组合间的亲疏关系; ② 对变量进行分类; ③ 根据分类结果及它们之间的关系,在每一类中选择有代表性的变量作为典型变量,利用少数几个典型变量进一步作分析计算,如进行回归分析或Q型聚类分析等.第六章§6.1 聚类分析的方法Q型聚类分析的目的 Q型聚类分析的目的主要是对样品进行分类.分类的结果是直观的,且比传统分类方法更细致、全面、合理.当然使用不同的分类方法通常会得到不同的分类结果.对任何观测数据都没有唯一“正确的”的分类方法. 实际应用中,常采用不同的分类方法,对数据进行分析计算,以便对分类提供意见,并由实际工作者决定所需要的分类数及分类情况. 本章重点介绍应用最广泛的系统聚类法；且主要讨论Q型聚类分析问题.第六章§6.2 距离与相似系数为了对观测样品(或变量)进行分类,就必须研究它们之间的关系.描述样品之间亲疏相似程度的统计量很多,目前用得最多的是距离和相似系数,这两个统计量的定义与变量的类型密切相关,我们首先介绍变量的类型.第六章§6.2 距离与相似系数定量变量和定性(属性)变量根据变量取值的不同,变量可分为两大类：定量变量和定性(属性)变量. 定量变量就是我们通常所说的连续变量,例如长度、重量、产量、人口、温度等,它们是由测量或计数、统计所得到的量, 这类变量具有数值特征,称为定量变量. 第六章§6.2 距离与相似系数定量变量和定性(属性)变量 定性(属性)变量只有性质上的差异,例如天气(阴、晴),性别(男、女),产品质量分为上中下三个等级. 这些变量都是属性(定性)变量. 属性变量又分为名义变量和有序变量二种: (1)有序变量:其值有明确的逻辑次序，但各个值之间的距离并不清楚. (2) 名义变量:其值之间无逻辑次序,可按任何次序排序编码.例如性别,职业,地区,…都是名义变量. 不同类型的变量在定义距离或相似性测度时有很大差异.第六章§6.2 距离与相似系数数据的变换方法 设有n个样品,每个样品测得m项指标(变量),得观测数据xij(i=1,…,n,j=1,…,m).通常将数据列成以下表格的形式.第六章§6.2 距离与相似系数数据的变换方法 1. 中心化变换变换后数据的均