降维算法(二) 非线性降.pptVIP

下载本文档

12
0
约2.17千字
约 18页
2016-05-22 发布于湖北
举报
版权申诉

降维算法(二) 非线性降.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

降维算法（二）非线性降维一、核技巧（Kernel method）二、等距映射(Isomap) 核函数发展历史核方法的思想如果直接把低维度的数据转化到高维度的空间中，然后再去寻找线性分割平面，会遇到两个大问题。一是由于是在高维度空间中计算，导致curse of dimension问题；二是非常的麻烦，每一个点都必须先转换到高维度空间，然后求取分割平面的参数等等；怎么解决这些问题？答案是通过核方法（kernel method）定义一个核函数K(x1,x2)= 其中x1和x2是低维度空间中点（在这里可以是标量，也可以是向量），φ(xi)是低维度空间的点xi转化为高维度空间中的点的表示， , 表示向量的内积。常见的核函数有高斯核，多项式核等等，在这些常见核的基础上，通过核函数的性质（如对称性等）可以进一步构造出新的核函数。核函数设计和算法设计 1）收集和整理样本,并进行标准化； 2）选择或构造核函数； 3）用核函数将样本变换成为核函数矩阵, 这一步相当于将输入数据通过非线性函数映射到高维特征空间； 4）在特征空间对核函数矩阵实施各种线性算法； 5）得到输入空间中的非线性模型。等距映射（Isomap）流形学习算法流形学习方法(Manifold Learning)，简称流形学习，自2000年在著名的科学杂志《Science》被首次提出以来，已成为信息科学领域的研究热点。在理论和应用上，流形学习方法都具有重要的研究意义而非线性方法则是对线性方法的线性扩展，如主成分分析（Principal component analysis，PCA），多维尺度变换（Multidimensional scaling，MDS）等。 Isomap的主要目标是对于给定的高维流形，欲找到其对应的低维嵌入，使得高维流形上数据点间的近邻结构在低维嵌入中得以保持。Isomap以MDS(Multidimensional Scaling)为计算工具，创新之处在于计算高维流形上数据点间距离时，不是用传统的欧式距离，而是采用微分几何中的测地线距离（或称为曲线距离），并且找到了一种用实际输入数据估计其测地线距离的算法（即图论中的最小路径逼近测地线距离)。算法描述 Isomap的优点求解过程依赖于线性代数的特征值和特征向量问题，保证了结果的稳健性和全局最优性；能通过剩余方差判定隐含的低维嵌入的本质维数； Isomap方法计算过程中只需要确定唯一的一个参数（近邻参数k或邻域半径e） * * ????早在1964年Aizermann等在势函数方法的研究中就将该技术引入到机器学习领域，但是直到1992年 Vapnik等利用该技术成功地将线性SVMs 推广到非线性SVMs时其潜力才得以充分挖掘。而核函数的理论则更为古老，Mercer定理可以追溯到1909年，再生核希尔伯特空间 (ReproducingKernel Hilbert Space, RKHS) 研究是在20世纪40年代开始的。核方法核方法的主要思想是基于这样一个假设：“在低维空间中不能线性分割的点集，通过转化为高维空间中的点集时，很有可能变为线性可分的” ，例如下图左图的两类数据要想在一维空间上线性分开是不可能的，然而通过F(x)=(x-a)(x-b) 把一维空间上的点转化为右图上的二维空间上，就是可以线性分割的了注意：这里核函数K(x1,x2)的表达方式一般都不会显式地写为内积的形式，即我们不关心高维度空间的形式。核函数巧妙地解决了上述的问题，在高维度中向量的内积通过低维度的点的核函数就可以计算了。核方法的原理这里还有一个问题：“为什么我们要关心向量的内积？”，一般地，我们可以把分类的问题分为两类：参数学习的形式和基于实例的学习形式。参数学习的形式就是通过一堆训练数据，把相应模型的参数给学习出来，然后训练数据就没有用了，对于新的数据，用学习出来的参数即可以得到相应的结论；基于实例的学习（又叫基于内积的学习）则是在预测的时候也会使用训练数据，如KNN算法。而基于实例的学习一般就需要判定两个点之间的相似程度，一般就通过向量的内积来表达。从这里可以看出，核方法不是万能的，它一般只针对基于实例的学习。核函数的存在性判断和如何构造？既然我们不关心高维度空间的表达形式，那么怎么才能判断一个函数是否是核函数呢？ Mercer 定理：任何半正定的函数都可以作为核函数。所谓半正定的函数f(xi,xj)，是指拥有训练数据集合（x1,x2,...xn)，我们定义一个矩阵的元素aij = f(xi,xj)