第十一章 多元统计分析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第十一章 多元统计分析 第一节 聚类分析 聚类分析起源于分类学,在考古的分类学中,人们主要依靠经验和专业知识 来实现分类,随着生产技术和科学的发展,分类越来越细,要求越来越高,仅靠经验和专业知识不能进行确切的分类,于是统计这个有用的工具逐渐被引进到分类学中,形成数值分类学。后来,数理统计的多元方法被引入到分类学中,从分类学中逐渐分离出聚类分析这个新的分支,逐渐形成了今天在自然科学领域及社会经济领域里广泛应用的聚类分析。 聚类分析是多元统计分析方法中的一种,它是根据样品的多种指标的数据,定量的确定它们之间存在的相似性,根据这些样品或指标的相似程度,将其归为若干个类群,构成分类谱系图。 聚类分析可以分为Q型与R型两种,Q型聚类主要用于样品的分类,R型聚类主要用于指标的分类。基本思想:选择一个统计量用来衡量对象间的相似程度,按照相似程度的大小依次进行连结,从而绘制出分类谱系图。本节主要讨论Q型聚类分析。 一、数据的变换处理 在一些社会经济问题中,假设对n个样品测试其p个指标,得到如下数据矩阵: 其中,Xij是第i个样品的第j个指标的观测值。 特别,当各个指标的测量单位,测量结果的量纲存在较大差异时,有必要聚类之前对数据作相应得变换处理。 数据的中心化 中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。 令 其中: 中心化变换的结果是使每列数据之和均为0,即每个变量的均值为0。 数据的正规化 规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差,就得到规格化数据。即有: 经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;并且变换后的数据都不再具有量纲,便于不同的变量之间的比较。 数据的标准化 标准化变换也是对变量的数值和量纲进行类似于规格化变换的一种数据处理方法。首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。即有: 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 二、聚类分析中的统计量 研究样品或变量的亲疏程度的数量指标有两种,一种叫相似系数,性质越接近的变量或样品,它们的相似系数越接近于1或一l,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类;另一种叫距离,它是将每一个样品看作p维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。 距离 在Q型聚类中,如果把n个样品(X中的n行)看成p维空间中的n个点,则两个样品间的相似程度可用p维空间中的两点的距离来度量。令表示样品与的距离。常用的距离: 对于正规化的数据,有。越小,第i个样品与第j个样品就越相似;反之,相似性就越小。 相似系数 研究样品之间的关系,除了用距离表示外,还有相似系数,顾名思义,相思系数是描述样品之间相似程度的一个度量,常用相似系数有: (1)夹角余弦 将任何两个样品与看成p维空间的两个向量,这两个变量的余弦用表示,即为两个样品的相似系数: 其中,。当接近于1,说明与相似密切;,说明 与完全不一样;越接近于0,说明与差别大。 (2)相关系数 将第i个样品与第j个样品之间的相关系数定义为: 其中: 其中,。当接近于1,说明与相似密切;,说明 与完全不一样;越接近于0,说明与差别大。 由以上定义可知,对于标准化数据而言,相关系数与相似系数这两个统计量是完全一样的。 三、分类的步骤 分类之初,所有样品自成一类。 计算n个样品两两之间的距离{},记作D=() 合并距离最近的两类为一新类 计算新类于当前各类的距离 画聚类图 决定分类个数和类 在连结过程中,可采取最长距离法、中间距离法、最短距离法、重心法类、平均法等,根据实际情况选择。 四、案例分析 为了更深入了解我国人口文化现状程度,利用2006年全国人口变动情况抽样调查样本数据对全国31个省、市、自治区进行聚类分析。分析选取了三个指标: (1)大专及以上文化程度的人口占全部人口的百分比(x1) (2)高中化程度的人口占全部人口的百分比(x2) (3)初中文化程度的人口占全部人口的百分比(x3) 分别来反映较高、中等、较低文化程度人口的状况,原始数据如下表: 2006年全国人口变动情况抽样调查文化程度人口比例 地区 x1 x2 x3 北

文档评论(0)

美丽花 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档