2025【主成分分析理论及其分析基础2100字】.docxVIP

2025【主成分分析理论及其分析基础2100字】.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

PAGE

PAGEXXXVIII

主成分分析理论及其分析基础综述

1.1主成分分析

PCA(PrincipleComponentAnalysis),即为主成分分析方法,是一种使用最为广泛的数据降维算法,PCA的主要思想是将n维特征映射到k维特征空间中去,这k维是全新的正交特征,也被称为主成分,是在原有的n维特征的基础上重新构造出来的k维特征。PCA从原始的空间中顺序地选取一组组相互正交的坐标轴,坐标轴的选择主要和数据本身相关。第一个坐标轴选择的是原始数据中方差最大的方向,第二个坐标轴是选取与第一个坐标轴正交的平面中使得方差最大的,第三个坐标轴是与第一、二个坐标轴正交平面中方差最大的,以此类推,可以选取出n个坐标轴,但是大部分的方差都包含在前面的k个坐标轴中,后面的坐标轴中所包含的方差几乎为0。那么只要保留包含绝大部分方差的维度特征,忽略包含方程几乎为0的特征维度,就可以实现对于数据特征的降维处理,这也对应于PCA推导中的最大方差理论。

在最大方差理论中,信号处理过程中认为信号具有较大的方差,而噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。如图2-1所示,样本在1上的投影方差较大,在2上的投影较小,那么可以认为2上的投影是由早上引起的,正好对应于上文所提到的将n维样本转化为k维后,使得这k维上的样本方差都尽量大。

而在选择降维后的维度k时,k主要是和保留信息的百分比有关,首先需要对两个概念有了解:

平均平方映射方差(averagesquaredprojectionerror):1m1m

数据的总体变化(totalvariationinthedata):1m

可以选择不同的k值,对于下式进行计算,选取可以满足下式条件的最小k值即可。

1

t值的选取取决于对于信息的保留度,例如t值选取0.01,即代表该PCA算法保留了99%的主要信息,如果需要减小误差,则缩小t值,反之亦然。

21

2

1

图2-1PCA原理示意图

本文处理的所有原始图片都是112*92大小的pgm格式图片,每幅图片包含10304个像素点,每一行代表一个样本,维数就是10304维。维数过大使得数据处理工作十分复杂,同时,图片特征之间的强相关性还会导致“维数灾难”,不仅会让数据的分布变的稀疏,使得统计学习过程中的鲁棒性变差,还有可能导致模型的自由度变大,过拟合的风险大大提高。快速高效的人脸识别,其关键在于提取到精准表征人脸的特征。从人脸图像中找出最能表征人脸的特征空间,是主成分分析在人脸特征提取中的基本思想[2]。在这个过程中,不能表征人脸的属性会被剔除(降维的过程),也就是在一个高维特征空间中利用一组系数对特征加权,来重新表示一张人脸图片。

PCA过程的数学描述如下:

读取样本矩阵X={xi1,xi2,…,xin}(i=1,2,…,m),假设样本矩阵是一个m行

计算均值得到均值X=

用原始数据X减均值之后可以得到Z={z1,z2,…,zn},其中

找到一个方向u1,使所有zi在u1方向上投影长度(方差)最大,即最大化1

协方差矩阵为Cov=1ni=1n

则最大化u1TCovu1

通过拉格朗日乘子法Lu1,λ=

?L?u1=2

则所求目标值maxu1TCovu1就可以被转换为maxλu

在这个过程中,如果要计算k个方向(即降为k维),则保留前k大的特征值对应的特征向量V(V为n行*k列)。

最后得到的降维后的数据为pcaA=(X-Z)*V,pcaA是一个m行k列的矩阵。

1.2PCA的局限

PCA算法追求的是数据的最佳重建效果,只需要依靠方差来衡量信息量,不受数据集以外的其他因素影响,正是在这个基础上,使得这个方法的计算简单,仅需要通过特征值分解这一主要运算就可以实现。同时各主成分之间正交,可以消除原始数据成分间的相互影响的因素。

但也正因为其方法的简单,使其具有一些局限性和缺点:PCA算法只适用于满足具有高斯分布的数据,同时在降维过程中,只提取出主成分的特征,但是主成分的各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强,这也可能使得丢失一些样本中的有用信息,甚至非主成分中重要信息的丢失还可能影响后续的数据处理。

1.3LDA(线性判别分析)和PCA的比较选择

在特征提取方法中还有一个较为常用的方法:LDA(线性判别分析),LDA是一种有监督的降维技术,数据集的每个样本都是有类别输出的,在这一点上和PCA有很大程度上的不同,PCA属于不考虑样本类别输出的无监督降维技术。LDA的主要思想是投影后类内方差最小,类间方差最大,即将数据投影到低维平面上,希望相同类的投影点尽可能接近,而不同类别的数据的类别中心之间的距离尽可能的大,这种特征提取思想尽管对之后分类效果有一定程度上的提升,但是并不适

您可能关注的文档

文档评论(0)

02127123006 + 关注
实名认证
文档贡献者

关注原创力文档

1亿VIP精品文档

相关文档