2025【主成分分析理论及其分析基础2100字】.docxVIP

下载本文档

0
0
约2.19千字
约 4页
2025-05-15 发布于湖北
举报
版权申诉

2025【主成分分析理论及其分析基础2100字】.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE

PAGEXXXVIII

主成分分析理论及其分析基础综述

1.1主成分分析

PCA（PrincipleComponentAnalysis），即为主成分分析方法，是一种使用最为广泛的数据降维算法，PCA的主要思想是将n维特征映射到k维特征空间中去，这k维是全新的正交特征，也被称为主成分，是在原有的n维特征的基础上重新构造出来的k维特征。PCA从原始的空间中顺序地选取一组组相互正交的坐标轴，坐标轴的选择主要和数据本身相关。第一个坐标轴选择的是原始数据中方差最大的方向，第二个坐标轴是选取与第一个坐标轴正交的平面中使得方差最大的，第三个坐标轴是与第一、二个坐标轴正交平面中方差最大的，以此类推，可以选取出n个坐标轴，但是大部分的方差都包含在前面的k个坐标轴中，后面的坐标轴中所包含的方差几乎为0。那么只要保留包含绝大部分方差的维度特征，忽略包含方程几乎为0的特征维度，就可以实现对于数据特征的降维处理，这也对应于PCA推导中的最大方差理论。

在最大方差理论中，信号处理过程中认为信号具有较大的方差，而噪声有较小的方差，信噪比就是信号与噪声的方差比，越大越好。如图2-1所示，样本在1上的投影方差较大，在2上的投影较小，那么可以认为2上的投影是由早上引起的，正好对应于上文所提到的将n维样本转化为k维后，使得这k维上的样本方差都尽量大。

而在选择降维后的维度k时，k主要是和保留信息的百分比有关，首先需要对两个概念有了解：

平均平方映射方差（averagesquaredprojectionerror）：1m1m

数据的总体变化（totalvariationinthedata）：1m

可以选择不同的k值，对于下式进行计算，选取可以满足下式条件的最小k值即可。

t值的选取取决于对于信息的保留度，例如t值选取0.01，即代表该PCA算法保留了99%的主要信息，如果需要减小误差，则缩小t值，反之亦然。

图2-1PCA原理示意图

本文处理的所有原始图片都是112*92大小的pgm格式图片，每幅图片包含10304个像素点，每一行代表一个样本，维数就是10304维。维数过大使得数据处理工作十分复杂，同时，图片特征之间的强相关性还会导致“维数灾难”，不仅会让数据的分布变的稀疏，使得统计学习过程中的鲁棒性变差，还有可能导致模型的自由度变大，过拟合的风险大大提高。快速高效的人脸识别，其关键在于提取到精准表征人脸的特征。从人脸图像中找出最能表征人脸的特征空间，是主成分分析在人脸特征提取中的基本思想[2]。在这个过程中，不能表征人脸的属性会被剔除（降维的过程），也就是在一个高维特征空间中利用一组系数对特征加权，来重新表示一张人脸图片。

PCA过程的数学描述如下：

读取样本矩阵X={xi1,xi2,…,xin}(i=1,2,…,m),假设样本矩阵是一个m行

计算均值得到均值X=

用原始数据X减均值之后可以得到Z={z1,z2,…,zn}，其中

找到一个方向u1，使所有zi在u1方向上投影长度（方差）最大，即最大化1

协方差矩阵为Cov=1ni=1n

则最大化u1TCovu1

通过拉格朗日乘子法Lu1,λ=

?L?u1=2

则所求目标值maxu1TCovu1就可以被转换为maxλu

在这个过程中，如果要计算k个方向（即降为k维），则保留前k大的特征值对应的特征向量V（V为n行*k列）。

最后得到的降维后的数据为pcaA=(X-Z)*V，pcaA是一个m行k列的矩阵。

1.2PCA的局限

PCA算法追求的是数据的最佳重建效果，只需要依靠方差来衡量信息量，不受数据集以外的其他因素影响，正是在这个基础上，使得这个方法的计算简单，仅需要通过特征值分解这一主要运算就可以实现。同时各主成分之间正交，可以消除原始数据成分间的相互影响的因素。

但也正因为其方法的简单，使其具有一些局限性和缺点：PCA算法只适用于满足具有高斯分布的数据，同时在降维过程中，只提取出主成分的特征，但是主成分的各个特征维度的含义具有一定的模糊性，不如原始样本特征的解释性强，这也可能使得丢失一些样本中的有用信息，甚至非主成分中重要信息的丢失还可能影响后续的数据处理。

1.3LDA（线性判别分析）和PCA的比较选择

在特征提取方法中还有一个较为常用的方法：LDA（线性判别分析），LDA是一种有监督的降维技术，数据集的每个样本都是有类别输出的，在这一点上和PCA有很大程度上的不同，PCA属于不考虑样本类别输出的无监督降维技术。LDA的主要思想是投影后类内方差最小，类间方差最大，即将数据投影到低维平面上，希望相同类的投影点尽可能接近，而不同类别的数据的类别中心之间的距离尽可能的大，这种特征提取思想尽管对之后分类效果有一定程度上的提升，但是并不适