主成分分析的概念及基本思想.docVIP

下载本文档

35
0
约3.98千字
约 7页
2017-09-15 发布于江西
举报
版权申诉

主成分分析的概念及基本思想.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

主成分分析的概念及基本思想

1、主成分分析的概念及基本思想主成分分析(Principle Component Analysis, PCA)是最为常用的特征提取方法，被广泛应用到各领域，如图像处理、综合评价、语音识别、故障诊断等。它通过对原始数据的加工处理，简化问题处理的难度并提高数据信息的信噪比，以改善抗干扰能力。主成分概念首先由Karl parson在1901年引进，不过当时只是对非随机变量进行讨论，1933年Hotelling将这个概念推广到随机向量。在实际问题中，研究多指标(变量)问题是经常遇到的，然而在多数情况下，不同指标之间是有一定相关性。由于指标较多并且指标之间有一定的相关性，势必增加了分析问题的复杂性。主成分分析就是设法将原来众多具有一定相关性的指标(比如p个指标)，重新组合成一组新的相互无关的综合指标来代替原来指标。通常数学上的处理就是将原来p个指标作线性组合，作为新的综合指标，但是这种线性组合，如果不加限制，则可以有很多，我们应该如何去选取呢？如果将选取的第一个线性组合即第一个综合指标记为F1，自然希望F1尽可能多的反映原来指标的信息，这里的“信息”用什么来表达？最经典的方法就是用F1的方差来表达，即Var(F1)越大，表示F1包含的信息越多。因此在所有的线性组合中所选取的F1应该是方差最大的，故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息，再考虑选取F2即选第二个线性组合，为了有效地反映原来信息，F1已有的信息就不需要再出现在F2中，用数学语言表达就是要求Cov(F1，F2)=0 ，称F2为第二主成分，依此类推可以构造出第三，四，…，第p个主成分。不难想象这些主成分之间不仅不相关，而且它们的方差依次递减。因此在实际工作中，就挑选前几个最大主成分，虽然这样做会损失一部分信息，但是由于它使我们抓住了主要矛盾，并从原始数据中进一步提取了某些新的信息。因而在某些实际问题的研究中得益比损失大，这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。 2、主成分分析的数学模型及几何意义 2.1、数学模型设有n个样品，每个样品观测p项指标(变量)：X1,X2, ….Xp，得到原始数据资料阵：其中用数据矩阵X的p个向量(即p个指标向量)X1，X2，…Xp作线性组合(即综合指标向量)为：简写成其中，Xi是n维向量，所以Fi也是n维向量。上述方程组要求：且系数aij由下列原则决定： (1) Fi与Fj(i≠j,i,j=1,…p)不相关； (2) F1是X1 ,X2，…,Xp的一切线性组合(系数满足上述方程组)中方差最大的，F2与F1不相关的X1 ,X2，…,Xp一切线性组合中方差最大的，…，Fp是与F1，F2，…，Fp-1都不相关的X1 ,X2，…,Xp的一切线性组合中方差最大的。如何求满足上述要求的方程组的系数aij呢？下一节将会看到每个方程式中的系数向量(a1i,a2i, …,api)，i=1,2, …,p不是别的而恰好是X的协差阵∑的特征值所对应的特征向量，也就是说，数学上可以证明使Var(F1)达到最大，这个最大值是在协方差阵∑的第一个特征值所对应特征向量处达到。依此类推使Var(Fp)达到最大值是在协方差阵∑的第p个特征值所对应特征向量处达到。 2.2、主成分的几何意义从代数学观点看主成分就是p个变量X1 ,X2，…,Xp的一些特殊的线性组合，而在几何上这些线性组合正是把X1 ,X2，…,Xp构成的坐标系旋转产生的新坐标系，新坐标轴使之通过样品变差最大的方向(或说具有最大的样品方差)。下面以最简单的二元正态变量来说明主成分的几何意义。设有n个样品，每个样品有p个变量记为X1 ,X2，…,Xp，它们的综合变量记为F1，F2，…，Fp 。当p=2时，原变量是X1，X2，它们有下图的相关关系：主成分的意义对于二元正态分布变量，n个分散的点大致形成为一个椭圆，若在椭圆长轴方向取坐标轴F1，在短轴方向聚F2，这相当于在平面上作一个坐标变换，即按逆时针方向旋转θ角度，根据旋转轴变换公式新老坐标之间有关系：矩阵表示为：显然UT=U-1且是正交矩阵，即UTU=I。从上图还容易看出二维平面上的n个点的波动(可用方差表示)大部分可以归结为在F1轴上的波动，而在F2轴上的波动是较小的。如果上图的椭圆是相当扁平的，那么我们可以只考虑F1方向上的波动，忽略F2方向的波动。这样一来，二维可以降为一维了，只取第一个综合变量F1即可。而F1是椭圆的长轴。一般情况，p个变量组成p维空间，n个样品就是p维空间的n个点，对p元正态分布变量来说，找主成分的问题就是找P维空间中椭球体的主轴问题。 3、主成分分析的推导在下面推导过程中