降维算法(二) 非线性降.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
降维算法(二) 非线性降维 一、 核技巧(Kernel method) 二、等距映射(Isomap) 核函数发展历史 核方法的思想 如果直接把低维度的数据转化到高维度的空间中,然后再去寻找线性分割平面,会遇到两个大问题。 一是由于是在高维度空间中计算,导致curse of dimension问题; 二是非常的麻烦,每一个点都必须先转换到高维度空间,然后求取分割平面的参数等等;怎么解决这些问题? 答案是通过核方法(kernel method) 定义一个核函数K(x1,x2)= 其中x1和x2是低维度空间中点(在这里可以是标量,也可以是向量),φ(xi)是低维度空间的点xi转化为高维度空间中的点的表示, , 表示向量的内积。 常见的核函数有高斯核,多项式核等等,在这些常见核的基础上,通过核函数的性质(如对称性等)可以进一步构造出新的核函数。 核函数设计和算法设计 1)收集和整理样本,并进行标准化; 2)选择或构造核函数; 3)用核函数将样本变换成为核函数矩阵, 这 一步相当于将输入数据通过非线性函数映射到高维特征空间; 4)在特征空间对核函数矩阵实施各种线性算法; 5)得到输入空间中的非线性模型。 等距映射(Isomap) 流形学习算法 流形学习方法(Manifold Learning),简称流形学习,自2000年在著名的科学杂志《Science》被首次提出以来,已成为信息科学领域的研究热点。在理论和应用上,流形学习方法都具有重要的研究意义 而非线性方法则是对线性方法的线性扩展,如主成分分析(Principal component analysis,PCA),多维尺度变换(Multidimensional scaling,MDS)等。 Isomap的主要目标是对于给定的高维流形,欲找到其对应的低维嵌入,使得高维流形上数据点间的近邻结构在低维嵌入中得以保持。Isomap以MDS(Multidimensional Scaling)为计算工具,创新之处在于计算高维流形上数据点间距离时,不是用传统的欧式距离,而是采用微分几何中的测地线距离(或称为曲线距离),并且找到了一种用实际输入数据估计其测地线距离的算法(即图论中的最小路径逼近测地线距离)。 算法描述 Isomap的优点 求解过程依赖于线性代数的特征值和特征向量问题,保证了结果的稳健性和全局最优性; 能通过剩余方差判定隐含的低维嵌入的本质维数; Isomap方法计算过程中只需要确定唯一的一个参数(近邻参数k或邻域半径e) * * ????早在1964年Aizermann等在势函数方法的研究中 就将该技术引入到机器学习领域,但是直到1992年 Vapnik等利用该技术成功地将线性SVMs 推广到非线性SVMs时其潜力才得以充分挖掘。 而核函数的理论则更为古老,Mercer定理可以 追溯到1909年,再生核希尔伯特空间 (ReproducingKernel Hilbert Space, RKHS) 研究是在20世纪40年代开始的。 核方法 核方法的主要思想是基于这样一个假设:“在低维空间中不能线性分割的点集, 通过转化为高维空间中的点集时,很有可能变为线性可分的” ,例如下图 左图的两类数据要想在一维空间上线性分开是不可能的,然而通过F(x)=(x-a)(x-b) 把一维空间上的点转化为右图上的二维空间上,就是可以线性分割的了 注意:这里核函数K(x1,x2)的表达方式一般都不会显式地写为内积的形式,即我们不关心高维度空间的形式。核函数巧妙地解决了上述的问题,在高维度中向量的内积通过低维度的点的核函数就可以计算了。 核方法的原理 这里还有一个问题:“为什么我们要关心向量的内积?”,一般地, 我们可以把分类的问题分为两类: 参数学习的形式和基于实例的学习形式。 参数学习的形式 就是通过一堆训练数据,把相应模型的参数给学习出来, 然后训练数据就没有用了,对于新的数据,用学习出来的参数即可以得 到相应的结论; 基于实例的学习 (又叫基于内积的学习)则是在预测的时候也会使用训练数据,如KNN算法。 而基于实例的学习一般就需要判定两个点之间的相似程度, 一般就通过向量的内积来表达。从这里可以看出,核方法不是万能的, 它一般只针对基于实例的学习。 核函数的存在性判断和如何构造? 既然我们不关心高维度空间的表达形式,那么怎么才能判断一个函数是否是核函数呢? Mercer 定理:任何半正定的函数都可以作为核函数。所谓半正定的函数f(xi,xj),是指拥有训练数据集合(x1,x2,...xn),我们定义一个矩阵的元素aij = f(xi,xj)

文档评论(0)

三哥 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档