- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于加权核主成分分析的鲁棒加权重建算法
0 加权核主成分分析方法
近年来,模式识别技术取得了迅速的发展和广泛应用。资源提取是模式识别技术的一项重要技术和研究热点。主成分分析(principal component analysis,PCA)属于代数特征分析方法,是模式识别领域中一种经典的特征提取和数据降维技术。PCA是一种线性的数据分析方法,该方法对数据中的非线性信息较难提取,这在一定程度上影响了PCA方法的效果。针对PCA方法在处理非线性问题时的不足,Sch?lkopf等人首次利用核函数将PCA推广到高维核空间,提出了核主成分分析法(kernel principal component analysis,KPCA)。通过核方法将样本数据映射到高维特征空间,使得原本在低维空间中不能很好提取的信息在高维空间变得线性可分,从而获得更好的特征提取效果。
样本数据集由于干扰等因素的存在,往往含有一些离群点样本。如何降低离群点样本的干扰,提高算法的鲁棒性一直是一个有待解决的难题。基于文献中的离群点检测方法,文献得到了一种鲁棒的RWKPCA方法。传统的PCA和KPCA方法均以重建误差和最小为目的,一些加权特征提取方法权值的确定不仅对数据样本集有很高的依赖,而且往往不能做到自适应,对样本数据集中的离群点抗干扰能力也较差。
基于文献的思想,本文通过在核空间中建立一个样本加权重建误差和最小的数学模型,得到了一种鲁棒的加权核主成分分析方法。通过对样本加权,提高算法对离群点样本的鲁棒性。同时本文引入核方法对文献中模型进行改进,提高了算法对样本数据中的非线性信息的提取能力。实验部分分别对本文算法、文献中WPCA、KPCA和RWKPCA方法的抗离群点能力、识别率在Yale人脸数据库和UCI数据集上进行了对比。
1 特征空间vk
核主成分分析方法是一种非线性的数据分析方法,其主要思想是:通过引入一个非线性变换Φ,将数据由输入空间Rm映射到高维特征空间F,然后在特征空间F中利用PCA方法进行数据分析和处理。KPCA是对PCA方法在核空间中的一种扩展,能更有效地提取数据中的非线性信息。
设样本集X={x1,x2,x3…,xN}∈Rm,核函数通过变换Φ将样本xi映射为特征空间F中的Φ(xi),将之中心化,即转换为Ν∑i=1Φ(xi)=0∑i=1NΦ(xi)=0。可得F空间中的协方差矩阵C为
通过求协方差矩阵C,可得特征值λ和特征向量V。由于所有的特征向量V均可以表示为Φ(x1),Φ(x2),…,Φ(xN)的线性张成,即
V=Ν∑i=1αiΦ(xi)(2)
因此,可得
综合式(2)(3)得
定义一个N×N的核矩阵K,即Kij=Φ(xi)·Φ(xj),于是,可将式(4)简化为
解式(5)就能得到所求的特征向量和特征值,可得测试样本在特征空间Vk中的投影为
Vk?Φ(x)=Ν∑i=1(αi)k(Φ(xi)?Φ(x))(6)
实际应用中经常用中心化核矩阵?Κ替换K。中心化的矩阵为
?Κ=Κ-Ι?Κ-Κ?Ι+Ι?Κ?Ι?Ιij=1Ν(7)
2 鲁棒加权核的主要组成分析算法
2.1 加权重建误差模型
KPCA方法实际上是PCA方法在核空间中的扩展,通过核方法将样本数据映射到高维特征空间,使得原本在低维空间中不能很好提取的信息在高维空间变得线性可分,从而获得更好的特征提取效果。KPCA方法也可以从基于均方差意义上的重建误差来建立,在重建误差意义上KPCA可以表示为
其中:K(:,i)为核矩阵K的i列表示映射到核空间中的第i个样本,α为投影矩阵。模型式(8)以各样本欧式距离上重建误差和最小为目标,该模型认为每一个样本所占的重要性均一样。然而,不同的样本对于具体的识别问题的重要性各不相同。实际应用中,由于干扰等因素的存在往往使得样本集中存在一些离群点样本,传统的KPCA方法的重建误差模型并未考虑到该因素。
基于以上的分析,本文对KPCA方法的重建误差通过加权的思想进行了修正,通过引入了信息熵来调节不同样本所占权重的大小,在核空间建立了一个加权重建误差和最小的模型:
其中:K(:,i)为核矩阵K的i列表示映射到核空间中的第i个样本;γi(大于0)为第i个样本的权重;α为投影矩阵;λ为正则化参数。与文献中的模型相比,通过核方法构建的新模型式(9)能充分发挥核方法对数据中的非线性信息很好提取的优势,从而获得更好的特征提取效果。
2.2 特征提取模型求解
本文通过核方法将样本数据映射到核空间,在核空间中通过模型式(9)进行样本加权,求解模型得到了一种鲁棒的加权核主成分分析算法。模型式(9)中存在两组未知变量,投影向量α以及样本权重参数γi。本文采用交替优化算法来求解模型。通过优化理论中的拉格朗日方程,不难推出权重γi有式(11)的解析形式:
γi=e-∥Κ(:?i)-ααΤΚ(:?i
原创力文档


文档评论(0)