第7讲_主成分分析法1(上课用)课件.ppt

  1. 1、本文档共74页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第7讲_主成分分析法1(上课用)课件

第5节 主成分分析 (Principal Components Analysis,PCA) ;主要内容;一、主成分分析概述;假定你是一个公司的财务经理,掌握了公司的所有数据,这包括众多的变量,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。 如果让你向上级或有关方面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗? ;当然不能。汇报什么? 发现在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。 需要把这种有很多变量的数据进行高度概括,用少数几个指标简单明了地把情况说清楚。 ;主成分分析( Principal Components Analysis )和因子分析(Factor Analysis)就是把变量维数降低以便于描述、理解和分析的方法。 主成分分析也称为主分量分析,是一种通过降维来简化数据结构的方法:如何把多个变量化为少数几个综合变量(综合指标) ,而这几个综合变量可以反映原来多个变量的大部分信息,所含的信息又互不重叠,即它们之间要相互独立,互不相关。 这些综合变量就叫因子或主成分,它是不可观测的,即它不是具体的变量(这与聚类分析不同),只是几个指标的综合。 在引入主成分分析之前,先看下面的例子。;成绩数据;从本例可能提出的问题;事实上,以上的三个问题在地理学研究中,也会经常遇到。它所涉及的问题可以推广到对企业、对学校、对区域进行分析、评价、排序和分类等。 比如对n个区域进行综合评价,可选的描述区域特征的指标很多,而这些指标往往存在一定的相关性(既不完全独立,又不完全相关),这就给研究带来很大不便。若选指标太多,会增加分析问题的难度与复杂性,选指标太少,有可能会漏掉对区域影响较大的指标,影响结果的可靠性。;这就需要我们在相关分析的基础上,采用主成分分析法找到几个新的相互独立的综合指标,达到既减少指标数量、又能区分区域间差异的目的。 ; 二、主成分分析的基本原理;(一)主成分分析的几何解释 ;空间的点;;那么随机向量;对应的特征向量分别为:;;事实上,随机变量 Y1和 Y2的方差分别为:;在上面的例子中 Y1 和 Y2 就是原变量 X1和 X2的第一主成分和第二主成分。实际上第一主成分 Y1 就基本上反映了 X1 和X2 的主要信息,因为图中的各点在新坐标系中的 Y1 坐标基本上就代表了这些点的分布情况,因此可以选 Y1 为一个新的综合变量。当然如果再选 Y2也作为综合变量,那么 Y1 和 Y2 则反映了 X1 和 X2的全部信息。 ; 从几何上看,找主成分的问题就是找出p维空间中椭球体的主轴问题,就是要在x1~xp的相关矩阵中m个较大特征值所对应的特征向量。 究竟提取几个主成分或因子,一般有两种方法: 特征值>1 累计贡献率>0.8 那么如何提取主成分呢? ;假定有n个地理样本,每个样本共有p个变量,构成一个n×p阶的地理数据矩阵 ; 定义:记x1,x2,…,xP为原变量指标,z1,z2,…,zm(m≤p)为新变量指标; ② z1是x1,x2,…,xP的一切线性组合中方差最大者(最能解释它们之间的变化),z2是与z1不相关的x1,x2,…,xP的所有线性组合中方差最大者;…; zm是与z1,z2,……,zm-1都不相关的x1,x2,…xP, 的所有线性组合中方差最大者。 则新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第1,第2,…,第m主成分。 ; 从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2 ,…, p)在诸主成分zi(i=1,2,…,m)上的荷载 lij( i=1,2,…,m; j=1,2 ,…,p)。 从数学上可以证明,它们分别是相关矩阵(也就是x1,x2,…,xP 的相关系数矩阵)m个较大的特征值所对应的特征向量。 ;三、主成分分析的计算步骤;(一)计算相关系数矩阵 rij(i,j=1,2,…,p)为原变量xi与xj标准化后的相关系数, rij=rji,其计算公式为 ; (二)计算特征值与特征向量 1、解特征方程    ,求出特征值,并使其按大小顺序排列 ; ;3、计算主成分贡献率及累计贡献率 贡献率; 4、计算主成分载荷     在主成分之间不相关时,主成分载荷就是主成分zi与变量xj之间的相关系数(在数

文档评论(0)

baa89089 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档