- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
核函数在主成分分析中的应用
摘要:主成分分析在对线性数据进行降维时非常有效,核函数能够将线性不可分的数据映射到高维希尔伯特空间中可能可分。将核函数应用到主成分分析中成为核主成分分析。从核函数的性质、核函数的参数调整、核函数的构造等方面对核主成分分析进行应用与实现,并结合核Fisher判别分析,对样例数据进行核主成分分析,结论表明,效果良好,但执行速度较慢,需要后续改进。
关键词:核函数;主成分分析;特征提取;协方差矩阵;Gram矩阵
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)28-6659-04
智能时代的到来,模式识别得到了广泛的重视和应用。支持向量机(SVM)由于有着坚实的统计学理论基础,能够实现结构风险最小化,特别是能够克服机器学习中经常遇到的“维数灾难”问题,并且在二类分类中表现出优异的性能,从而在分类中占有重要地位。SVM不仅能够进行线性分类,而且在非线性分类中也表现出良好的性能。这归因于SVM中成功应用了核函数的思想,把在低维空间中不可分的输入数据映射到高维的特征空间(也叫希尔伯特空间)中去,在高维空间中就有可能可分。核函数思想在SVM中的成功应用,打开了核函数的应用领域,从本质上来说,只要一个应用中直接或间接地需要用到两个向量内积的运算,核函数都有可能在该领域有所作为。这样,核函数的应用,并没有改变本来应用的思路,同时,核函数注重的是两个向量之间的内积结果,使得在应用中并不需要知道真正的变换函数是什么,从而方便了分类或聚类等应用。主成分分析(Principal component analysis,PCA)在模式识别中得到了广泛的应用,是一个对线性输入空间进行降维的有效方法,但实际工程应用中的数据空间往往不是线性的,如果能够将核函数的思想应用到PCA中,就能够使得PCA对非线性的数据空间也能够进行有效降维,能够有效改进模式识别的算法效率,降低对存储空间的要求。
当前对核主成分分析的研究取得了很多成果,在应用中也得到了有效应用。但是,核主成分分析的具体实现过程、核函数的参数选择、核函数的直接构造、由函数产生核以及主成分分析不考虑分类类别的改进上,还有很多工作需要做,该文在以上几方面予以分析,并在应用中予以实验验证。
1 核函数
核函数的研究起源于1909年,Mercer提出了核的定理与条件,1940年后,再生核得到研究,1964年Aizermann等人将核的思想运用到机器学习领域,1992年Vapnik等人在SVM中成功应用了核函数,从此核函数得到了深入的研究与应用。
核函数是一个n维欧氏空间Rn到希尔伯特空间H的变换上的内积函数,即K(x1,x2)= (Φ(x1)Φ(x2) )。
核函数具有一个重要特性:一个对称函数K(x1,x2)是核函数,那么K(x1,x2)对应于x1,x2…xn的Gram矩阵非负定;反过来,若K(x1,x2)对应于x1,x2…xn的Gram矩阵非负定,则K(x1,x2)是核函数。
因此寻找核函数可以利用以上性质,只要找到一个对称函数K(x1,x2),做出其对应的Gram矩阵,判断该矩阵的正定性就可以得出K(x1,x2)是否是核函数。当前较为广泛使用并有效的核函数有高斯径向基核函数[K(x1,x2)=exp(-||x1-x2||2/(2σ)2))]、多项式函数K(x1,x2)=((x1x2)+1)d。
但是,在实际工程应用中,有些应用场合,数据分布具有一定的特殊形式,通过多项式核函数或高斯径向基核函数并不能达到最佳效果,即使通过大量的实验,也很难找到最恰当的核函数参数。这时,可以根据数据分布的特点,进行核函数构造,这样构造出的核函数在数据处理上有可能达到很高的效率。
另外,还可以根据某些不是核函数的函数,通过一定的方式,构造出核函数。因为,根据核函数的性质,一个函数若是核函数,它对应的Gram矩阵必是非负定的。那么,若一个函数不满足这个特性,则可以通过一个过渡函数,运用以下公式将它改造为核函数:
[K(x1,x2)=i=1Ntrans(xi,x1)trans(xi,x2)]
其中,N为输入空间中样本的个数,x1、x2是输入空间的向量,trans()是一个过渡函数。实际上,Sigmoid核函数f(x)=1/(1+e-x)在手写数字识别领域得到了应用并取得较好效果,但是Sigmoid函数对应的Gram矩阵不具有非负定特性,因此,严格意义上来说Sigmoid函数不是一个真正的核函数,而是一个经过某个过渡函数改造成的核函数。[1]
2 主成分分析
2.1 主成分分析(PCA)
在对输入数据进行模式识别时,经常会发现样本数和输入的向量的维数很大的情况,这对处
文档评论(0)