主成分分析法终稿.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

主主成成分分分分析析法法终终稿稿

主成分分析法

⼀定义:

主成分分析法:principalcomponentanalysis(PCA)。也称主分量分析,是揭⽰⼤样本、多变量数据或样本之间内关系的⼀

种⽅法,旨利⽤降维的思想,把多指标转化为

少数⼏个综合指标。

实证问题研究中,为了全⾯、系统地分析问题,我们必须考虑众多影响因素。这些涉及

的因素⼀般称为指标,多元统计分析中也称为变量。

主成分分析法是⼀种数学变换以简化数据的⽅法,它把给定的⼀组相关变量通过线性变换转成另⼀组相互独⽴或不相关的变

量,这些新的变量按照⽅差依次递减的顺序排列。数学

变换中保持变量的总⽅差不变,使第⼀变量具有最⼤的⽅差,称为第⼀主成分,第⼆变量

的⽅差次⼤,并且和第⼀变量不相关,称为第⼆主成分。依次类推,I个变量就有I个主成分。

每个主成分都是原始变量的线性组合,且各个主成分之间互不相关。这样研究复杂问题

时就可以只考虑少数⼏个主成分⽽不⾄于损失太多信息,从⽽更容易抓住主要⽭盾,揭⽰

事物内部变量之间的规律性,同时使问题得到简化,提⾼分析效率。(实际问题中遇到指

标较多且各指标相关关系较⼤时,⼈们常考虑应⽤主成分分析的⽅法)。

注意⼏点:(1)先判断该数据降维的条件是否成⽴;(2)主成分系数的平⽅和为1。(3)选取的主成分对原始变量要有代表

性.

从数学上对主成分分析法进⾏解释:

设有p个原始指标:x1,x2,...,xp,⽤来对n个单位进⾏评价,则共有np个数据。主成分分析的⽬的是要将这些原始指标组合成新

的相互独⽴的综合指标:

⼆主成分分析的主要作⽤

1.主成分分析能降低所研究的数据空间的维数。即⽤研究m维的Y空间代替p维的X

空间(m<p),⽽低维的Y空间代替⾼维的x空间所损失的信息很少。即:使只有⼀个主成

分Yl(即m=1)时,这个Yl仍是使⽤全部X变量(p个)得到的。例如要计算Yl的均值也得

使⽤全部x的均值。所选的前m个主成分中,如果某个Xi的系数全部近似于零的话,

就可以把这个Xi删除,这也是⼀种删除多余变量的⽅法。

3.多维数据的⼀种图形表⽰⽅法。当维数⼤于3时便不能画出⼏何图形,多元统计研究的问题⼤都多于3个变量。要把研究的

问题⽤图形表⽰出来是不可能的。然⽽,经过主成

分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n

个样品⼆维平⾯上的分布情况,由图形可直观地看出各样品主分量中的地位,进⽽还

可以对样本进⾏分类处理,可以由图形发现远离⼤多数样本点的离群点。

4.由主成分分析法构造回归模型。即把各主成分作为新⾃变量代替原来⾃变量x做回归分析。

5.⽤主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本⾝易于做结构分析、控制和预报,好从原

始变量所构成的⼦集合中选择最佳变量,构成最佳变

量集合。⽤主成分分析筛选变量,可以⽤较少的计算量来选择量,获得选择最佳变量⼦集合的效果。

三主成分分析法的⼀般步骤:(待细看)

1,⾸先需要判断待分析的原始变量是否适合做主成分分析,同样的,需要判定指标之间的相关性,可以使⽤P中

的“CorrelationMatrix(相关系数矩阵)”判定。

2,规范原始指标数据

如果指标的单位不同,则需要消除指标间不同量纲的影响,即对原始数据进⾏标准化处理,将原始数据处理成均值为0、⽅差

为1的归⼀化分析数据。

p维随机向量x=(x1,x2,...,xp)Tn个样品xij=(xi1,xi2,...,xip)T,i=1,2,…,n,xij表⽰第i个样本的第j个指标值,

n>p,构造样本阵:

⽤Z-score法对样本阵元进⾏如下标准化变换:

其中,得标准化阵

3、计算标准化数据的协⽅差矩阵,求相关系数矩阵

系数矩阵

其中rjk表⽰指标j与指标k的相关系数。

由于Z中的变量⼰是标准化的变量,此时Z的列变量的协⽅差矩阵就是相关系数矩阵。

4、计算R的特征根和特征向量

对于标准化后的数据,从相关系数矩阵出发,求得特征值与对应的特征向量;⽽对同度量或是取值范围同量级⽽不需要标准

化的数据,则直接从协⽅差矩阵求特征值与特征向量。

解样本相关矩阵R的特征⽅程得p个从⼤到⼩排列的特征根:

λ1≥λ2≥...≥λp≥0

由特征多项式Raj=λjaj得相应的单位特征向量aj。

,,……,

4、将标准化后的指标变量转换为主成分

以特征向量的分量值为权数,将标准化的指标进⾏加权就得到第i个主成分。

112

文档评论(0)

朝兵 + 关注
实名认证
文档贡献者

原版文件原创

1亿VIP精品文档

相关文档