浅谈一种基于非线性特征提取的数据降维算法.docVIP

下载本文档

14
0
约4.13千字
约 8页
2017-02-20 发布于河北
举报
版权申诉

浅谈一种基于非线性特征提取的数据降维算法.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

浅谈一种基于非线性特征提取的数据降维算法

浅谈一种基于非线性特征提取的数据降维算法　　1 线性特征提取方法　　降维方法是指构造降维映射，获得高维数据低维表示的方法. 如何将高维数据表示在低维空间中，并由此发现其内在结构是高维信息处理研究的关键问题之一. 实际应用中，根据降维映射方式的不同，可以对降维做线性和非线性的划分. 具体思路为: 假设高维空间RD 中的向量X = ( x1，x2，…，x D) T 通过映射函数F( X) =F1( X)F2( X)FL( Xaelig;ccedil;ccedil;ccedil;ccedil;egrave;ouml;divide;divide;divide;divide;oslash;)=F1( x1，x2，…，x D)F2( x1，x2，…，x D)FL( x1，x2，…，x Daelig;ccedil;ccedil;ccedil;ccedil;egrave;ouml;divide;divide;divide;divide;oslash;)( 1)得到低维空间RL 中的向量Y = ( y1，y2，…，y D) T，判断是否为线性降维取决于映射函数F 中的每个分量Fi是否为X 的线性函数. 　　线性方法由于具有简单性、易解释性、可延展性等优点，使得线性降维在高维数据处理中成为一个主流研究方向. 但另一方面，线性特征提取方法对嵌入到高维数据空间的子空间的线性或者近似线性的假设有太多限制条件，而现实生活中的数据大多是不规则的具有复杂结构的，一般呈现出非线性特征，如视频数据、立体图形数据、动态图像数据等，进而造成的结果就是通过线性映射无法得到理想的效果，从而需要处理系统后期进行大量的修复工作. 　　主成分分析法( PCA) 也叫主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标( 即主成分) ，其中每个主成分都能够反映原始数据的大部分信息，且所含信息互不重复，是目前使用最广的线性降维算法之一. 主成分分析法利用数据空间RD 中样本的方差大小作为衡量信息量多少的标准，认为方差越大所包含的信息量越多，样本分类越明显，反之提供的信息就越少，样本分类没有明显的边缘特征. 主成分分析法通过对数据空间进行线性变换，保留方差大、含信息多的分量，丢掉信息量少的分量，从而降低数据的维数. 　　线性判别分析( LDA) 充分考虑了样本的类别信息，其实质是为了降低数据维数以达到类间距加大，类内间距减小，这是通过寻找一种线性投影方向或者线性变换来实现的，是一种有监督的学习过程. 具体算法为: 设第k( k = 1，2，…，c )类的第i 幅图像用X( i)k表示，k 类的样本数为Nk，第k 类的样本平均为mu;k，那么类间矩阵和类内矩阵分别表示为:SB = 1LSigma;ck = 1( Nk( mu;k - mu;) ( mu;k - mu;) T ) ， ( 2)SW = 1LSigma;ck = 1Sigma;Nki = 1[ X( i)k ( - mu; )k( X( i)k - mu;k) T].通过S-1W SB特征向量组成的线性判别分析投影算子，可以得到量化的类间、类内优化准则:J( W) = WTSBWWTSWW . 　　2 非线性特征提取方法　　2. 1 流形学习　　流形学习属于微分几何学，其定义为: 设M 为豪斯多夫拓扑空间，如果M上的每一点P 都有一个开邻域UM，能够使U和n 维欧氏空间Rn 中的一个开子集同胚，那么M 就可以称为一个n 维流形. 其数学定义为: 已知数据集X = { xi，j= 1，2，…，N} Rd，如果数据集X 中的样本数据是低维空间中的样本集Y 通过未知的非线性映射f 变换而来，同时还需要考虑噪声epsilon;i的影响，即xi = f( yi) +epsilon;i，其中yi isin; YRm，m lt; d，f ∶Rm rarr;Rd 是Cinfin; 的嵌入映射，综上所述，流形学习是对已知数据集X:1) 通过非线性变换得到低维表达Y = { yi，i=1，2，…，N}  Rm; 　　2) 得出从高维空间到低维空间的非线性映射f-1∶Rd rarr; Rm. 　　2. 2 核变换方法与局部线性嵌入　　核变换方法的特征提取算法，充分利用了线性特征提取的一些优点，把低维的非线性空间数据映射到高维线性空间，进而将非线性数据线性化，通过已有的线性处理器处理数据. 其基本思想为:不在原始的非线性空间进行数据处理，而是在通过线性变换得到的高维线性空间使用线性算法. 大部分的非线性算法可以通过核变换方法扩展为线性算法. 算法描述为: 原始的非线性空间数据用SX表示，通过给定线性映射得到维数更高的线性空间SY:∶SX  Rn rarr; S