- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
PAGE
PAGEXXXVIII
主成分分析理论及其分析基础综述
1.1主成分分析
PCA(PrincipleComponentAnalysis),即为主成分分析方法,是一种使用最为广泛的数据降维算法,PCA的主要思想是将n维特征映射到k维特征空间中去,这k维是全新的正交特征,也被称为主成分,是在原有的n维特征的基础上重新构造出来的k维特征。PCA从原始的空间中顺序地选取一组组相互正交的坐标轴,坐标轴的选择主要和数据本身相关。第一个坐标轴选择的是原始数据中方差最大的方向,第二个坐标轴是选取与第一个坐标轴正交的平面中使得方差最大的,第三个坐标轴是与第一、二个坐标轴正交平面中方差最大的,以此类推,可以选取出n个坐标轴,但是大部分的方差都包含在前面的k个坐标轴中,后面的坐标轴中所包含的方差几乎为0。那么只要保留包含绝大部分方差的维度特征,忽略包含方程几乎为0的特征维度,就可以实现对于数据特征的降维处理,这也对应于PCA推导中的最大方差理论。
在最大方差理论中,信号处理过程中认为信号具有较大的方差,而噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。如图2-1所示,样本在1上的投影方差较大,在2上的投影较小,那么可以认为2上的投影是由早上引起的,正好对应于上文所提到的将n维样本转化为k维后,使得这k维上的样本方差都尽量大。
而在选择降维后的维度k时,k主要是和保留信息的百分比有关,首先需要对两个概念有了解:
平均平方映射方差(averagesquaredprojectionerror):1m1m
数据的总体变化(totalvariationinthedata):1m
可以选择不同的k值,对于下式进行计算,选取可以满足下式条件的最小k值即可。
1
t值的选取取决于对于信息的保留度,例如t值选取0.01,即代表该PCA算法保留了99%的主要信息,如果需要减小误差,则缩小t值,反之亦然。
21
2
1
图2-1PCA原理示意图
本文处理的所有原始图片都是112*92大小的pgm格式图片,每幅图片包含10304个像素点,每一行代表一个样本,维数就是10304维。维数过大使得数据处理工作十分复杂,同时,图片特征之间的强相关性还会导致“维数灾难”,不仅会让数据的分布变的稀疏,使得统计学习过程中的鲁棒性变差,还有可能导致模型的自由度变大,过拟合的风险大大提高。快速高效的人脸识别,其关键在于提取到精准表征人脸的特征。从人脸图像中找出最能表征人脸的特征空间,是主成分分析在人脸特征提取中的基本思想[2]。在这个过程中,不能表征人脸的属性会被剔除(降维的过程),也就是在一个高维特征空间中利用一组系数对特征加权,来重新表示一张人脸图片。
PCA过程的数学描述如下:
读取样本矩阵X={xi1,xi2,…,xin}(i=1,2,…,m),假设样本矩阵是一个m行
计算均值得到均值X=
用原始数据X减均值之后可以得到Z={z1,z2,…,zn},其中
找到一个方向u1,使所有zi在u1方向上投影长度(方差)最大,即最大化1
协方差矩阵为Cov=1ni=1n
则最大化u1TCovu1
通过拉格朗日乘子法Lu1,λ=
?L?u1=2
则所求目标值maxu1TCovu1就可以被转换为maxλu
在这个过程中,如果要计算k个方向(即降为k维),则保留前k大的特征值对应的特征向量V(V为n行*k列)。
最后得到的降维后的数据为pcaA=(X-Z)*V,pcaA是一个m行k列的矩阵。
1.2PCA的局限
PCA算法追求的是数据的最佳重建效果,只需要依靠方差来衡量信息量,不受数据集以外的其他因素影响,正是在这个基础上,使得这个方法的计算简单,仅需要通过特征值分解这一主要运算就可以实现。同时各主成分之间正交,可以消除原始数据成分间的相互影响的因素。
但也正因为其方法的简单,使其具有一些局限性和缺点:PCA算法只适用于满足具有高斯分布的数据,同时在降维过程中,只提取出主成分的特征,但是主成分的各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强,这也可能使得丢失一些样本中的有用信息,甚至非主成分中重要信息的丢失还可能影响后续的数据处理。
1.3LDA(线性判别分析)和PCA的比较选择
在特征提取方法中还有一个较为常用的方法:LDA(线性判别分析),LDA是一种有监督的降维技术,数据集的每个样本都是有类别输出的,在这一点上和PCA有很大程度上的不同,PCA属于不考虑样本类别输出的无监督降维技术。LDA的主要思想是投影后类内方差最小,类间方差最大,即将数据投影到低维平面上,希望相同类的投影点尽可能接近,而不同类别的数据的类别中心之间的距离尽可能的大,这种特征提取思想尽管对之后分类效果有一定程度上的提升,但是并不适
您可能关注的文档
- 2025【武威甘肃莫高实业会计成本核算所存在的问题及对策2300字】.doc
- 2025【张掖张掖巨龙铁合金公司企业所得税税收筹划方案设计论文任务书】.doc
- 2025【天水市天水华天电子企业应收帐款管理情况的调查报告3400字】.doc
- 2025【张掖张掖巨龙铁合金公司发展思考与对策开题报告文献综述3000字】.doc
- 2025【武威甘肃莫高实业公司员工离职倾向现状、原因及对策分析开题报告3200字】.doc
- 2025【武威甘肃莫高实业企业薪酬管理问题研究(任务书+开题报告)2800字】.doc
- 2025【我国水环境治理行业概况分析4400字】.docx
- 2025【S县全域土地综合治理研究的国内外文献综述4200字】.docx
- 2025【宁德时代资本结构同行业横向对比分析1900字】.docx
- 2025【建设项目施工设计中保证文明施工措施分析1500字】.docx
- 2025【污水处理工艺的水力及高程计算和投资估算及效益分析1600字】.docx
- 2025【我国茶产业发展现状概况分析710字】.docx
- 2025【围海股份股权质押的经济后果分析案例8600字】.docx
- 2025【瑞幸咖啡财务舞弊手段及动因分析案例3000字】.docx
- 2025【生活污水氧化沟工艺污水处理系统设计计算案例2100字】.docx
- 2025【中国中免集团主要财务能力分析案例6800字】.docx
- 2025【矿井污水处理厂总体布置案例】.docx
- 2025【中职院校的新能源汽车检测与维修专业课程体系规划升级的策略分析4600字】.docx
- 2025【中美贸易摩擦对我国通信产品出口的影响分析3500字】.docx
- 2025【高速公路灌砂法检测压实度的方法分析5000字】.docx
最近下载
- 岛津原子吸收分光光度计AA-6300软件硬件基本操作AA-6300-rj手册说明书.pdf VIP
- The Magic of Ordinary Days《平凡岁月的魅力(2005)》完整中英文对照剧本.docx VIP
- 注册税务师备考课件.pptx VIP
- MECG1000心电图机培训.pptx VIP
- 国内外CO2催化转化技术发展现状与未来展望.docx VIP
- 道路运输企业双重预防机制建设资料(安全风险分级管控和隐患排查治理).pdf
- HG∕T 5421-2018 噻唑膦原药(可复制版).pdf
- 括号里最大能填几326题.pdf VIP
- 公司物业服务投标方案(技术方案).docx VIP
- 实验动物学学堂云学堂在线课后题答案.docx VIP
文档评论(0)