主成分分析法 .pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综

合指标。在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影

响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每

个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定

的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法

研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希

望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。

主成分分析法简介-principalcomponentanalysis(PCA)主成分分析法是

一种数学变换的方法,它把给定的一组相关变量通过线性变换转成另一组不

相关的变量,这些新的变量按照方差依次递减的顺序排列。在数学变换中保

持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二

变量的方差次大,并且和第一变量不相关,称为第二主成分。依次类推,I

个变量就有I个主成分。

其中Li为p维正交化向量(Li*Li=1),Zi之间互不相关且按照方差由

大到小排列,则称Zi为X的第I个主成分。设X的协方差矩阵为Σ,则Σ

必为半正定对称矩阵,求特征值λi(按从大到小排序)及其特征向量,可

以证明,λi所对应的正交化特征向量,即为第I个主成分Zi所对应的系数

向量Li,而Zi的方差贡献率定义为λi/Σλj,通常要求提取的主成分的数

量k满足Σλk/Σλj0.85。

编辑本段主成分分析的主要目的

是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多

相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始

变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并

用以解释资料的综合性指标。由此可见,主成分分析实际上是一种降维方法。

编辑本段分析步骤

数据标准化;

求相关系数矩阵;

一系列正交变换,使非对角线上的数置0,加到主对角上;

得特征根xi(即相应那个主成分引起变异的方差),并按照从大到小的顺

序把特征根排列;

求各个特征根对应的特征向量;

用下式计算每个特征根的贡献率Vi;

Vi=xi/(x1+x2+)

根据特征根及其特征向量解释主成分物理意义。

编辑本段主成分分析法在社会调查中的应用

在社会调查中,对于同一个变量,研究者往往用多个不同的问题来测量

一个人的意见。这些不同的问题构成了所谓的测度项,它们代表一个变量的

不同方面。主成分分析法被用来对这些变量进行降维处理,使它们“浓缩”

为一个变量,称为因子。

在用主成分分析法进行因子求解时,我们最多可以得到与测度项个数一

样多的因子。如果保留所有的因子,就起不到降维的目的了。但是我们知道

因子的大小排列,我们可以对它们进行舍取。那么多小的因子需要舍弃呢?

在一般的行为研究中,我们常常用到的判断方法有两个:特征根大于1法与

碎石坡法。

因为因子中的信息可以用特征根li来表示,所以我们有特征根大于1这

个规则。如果一个因子的特征根大于1就保留,否则抛弃。这个规则,虽然

简单易用,却只是一个经验法则(ruleofthumb),没有明确的统计检验。不

幸的是,统计检验的方法在实际中并不比这个经验法则更有效(Gorsuch,

1983)。所以这个经验法则至今仍是最常用的法则。作为一个经验法则,它不

总是正确的。它会高估或者低估实际的因子个数。它的适用范围是20-40个

的测度项,每个理论因子对应3-5个测度项,并且样本量是大的(3100)。

碎石坡法是一种看图方法。如果我们以因子的次序为X轴、以特征根大

小为Y轴,我们可以把特征根随因子的变化画在一个坐标上,因子特征根呈

下降趋势。这个趋势线的头部快速下降,而尾部则变得平坦。从尾部开始逆

向对尾部画一条回归线,远高于回归线的点代表主要的因子,回归线两旁的

点代表次要因子。但是碎石坡法往往高估因子的个数。这种方法相对于第一

种方法更不可靠,所以在实际研究中一般不用。

抛弃小因子、保留大因子之后,降维的目的就达到了。

编辑本段因子旋转

在对社会调查数据进行分析时,除了把相关的问题综合成因子并保留大

的因子,研究者往往还需要对因子与测度项之间的关系进行检验,以确保每

一个主要

文档评论(0)

133****8101 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档