- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第十章主成分分析与因子分析
一个有经验的裁缝加工一件上衣,需要测量上体长、手臂长、胸围、颈围、肩宽、腰围 等14个指标,但在批量生产中,测量每个人的 14个指标是不可能的,怎么办呢?人们发现,
这14个指标之间具有相关性, 如果从这些指标中构造出少数几个指标, 只要根据这少数的几
个主要指标加工出的上衣就能适合大多数人的体型, 即这少数几个指标充分把握了上衣的主
要特征。事实上,采用主成分分析和因子分析便能找到两个不相关的指标“型和号” ,根据
这两个指标加工出的上衣,特体除外, 95%以上的人都能穿。从14个指标中构造出两个不相
关的指标的过程就称为降维。 在现实中类似的降维事例是很多的, 在统计学中主要利用因子
分子和主成分分析实现对数据的降维处理。 这一章我们将介绍因子分析和主成分分析如何实
现降维,以及在SPSS中如何实现这两种方法。
第一节主成分分析
一、主成分分析的基本思想
基本思想和数学模型
在对某一事件进行研究时,常常会涉及到与此相关的多个变量, 而这些变量之间往往存
在着相关性,很多的变量以及变量间的相关性大大增加了研究的复杂程度。 主成分分析就是
在解决上述问题过程中产生的,目的在于用少数几个不相关的主成分来代表原来的多个变 量,以方便我们对问题的分析。
所谓的主成分就是指多个变量的线性组合,不同的主成分之间相互无关。假设有 n个样
品,每个样品有p个变量分别为X1,X2,...,Xp,则主成分的个数最多可以有 p个,用公式表示
为: F i =a1i X1 a2iX2 ■■- a pi X p i =1,2,..p,。
方程应满足下列条件:
(1) a!2 - afi -... - a; =1。
(2) Fi 与 Fj( i = j;i,j =1,2,...,p )不相关。
(3) F1到F p方差依次递减。
第一个条件对系数加以限制使得方差不会任意增大。 如果不对系数加以限制,方差可以
趋于无穷大就变得没有意义了,同时第一个条件也使得每个主成分都是原始变量的凸函数。
第二个条件也是主成分分析的灵魂所在, 进行主成分分析的依据就是原始变量间的相关
性,用不相关的主成分表达相关的原始变量的信息来实现降维, 也是在提取主成分时不会提
取重复的信息。
第三个条件中每个主成分的方差衡量了每个主成分所能表示的原始变量信息的多少,
F1到Fp方差依次递减为提取主成分提供了方便。在提取主成分时,可以根据方差的大小确 定主成分的个数。这个条件可以保证被提取的每个主成分都比不被提取的主成分包含更多的 原始变量信息,以保证在降维的同时最大限度的提取原始信息。
主成分的几何意义
通过前面的介绍,了解到主成分在代数观点上就是原始变量的线性组合, 而在几何上可
表示为是对原始变量进行线性变换, 从而实现以较少的维度表达大部分原始变量的信息。 为
了方便在坐标中表现降维的几何过程,下面以二元为例来说明主成分的几何意义。
设有n个样品,每个样品有两个变量 Xi和X2,这样画出这n个样品的散点图如图10-1。
从图10-1可以看到数据都集中在椭圆的区域内。在水平轴 Xi和X2的两个方向上,我们
看到数据点是很分散的,把原始变量作线性变换就相当于把原坐标轴进行旋转, 把坐标轴旋
转到与椭圆的长短轴平行的 F1和F2方向上。相对于长轴如果短轴上的波动可以忽略时,就 可以只用长轴的变量来表示原始两个变量的信息,即:把原来的 X1和X2两个变量信息只用
F1来表示,也就完成了降维的过程。一种极端的情况是:如果短轴趋近于 0时,只用一个长
轴变量就可以提取几乎所有的原始信息。
在多元的情况下是类似于二元的多元空间中椭球体的主轴问题, 计算要比二元的情况复
杂的多,但思想是相同的,在计算机的辅助下可以很简单的实现对多元的降维, 具体的实施
在下面的软件实现中会有详细的介绍。
二、主成分分析的步骤和结果分析
主成分可以按以下步骤计算得出:计算原始变量的相关系数矩阵 R;计算相关系数矩阵
R的特征值,并按从大到小的顺序排列,记为 ’1 一乜-…;计算特征值对应的特征向量
,即为主成分F1到Fp相应的系数。
把原始变量的值代入主成分表达式中, 可以计算出主成分得分。注意在计算主成分得分
时需要先对原始变量进行标准化。 得到各主成分得分后,可以把各个主成分看作新的变量代
替原始变量,从而达到降维的目的。
对于第k个主成分,其对方差的贡献率为 。前k个主成分贡献率的累计值称为累计
i=1
贡献率。
主成分个数的确定通常有两种方式: (1)根据大于1的特征值的个数确定主成分的个数
;(2 )根据主成分的累计贡献率确定主成分的个数,使累计贡献率 85%或者其他值。最常
见的情况是主成分的个数为 2-3个。
1
6
7
2
5
8
7
8
8
3
8
9
7
5
原创力文档


文档评论(0)