流形学习中算法研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
流形学习中算法研究

流形学习中算法研究   摘要:详细介绍了一种新的机器学习的方法――流形学习。流形学习是一种新的非监督学习方法,可以有效地发现高维非线性数据集的内在维数并进行维数约简,近年来越来越受到机器学习和认知科学领域的研究者的重视。目前已经出现了很多有效的流形学习算法,如等度规映射(ISOMAP)、局部线性嵌套(Locally Linear Embedding ,LLE)等。详细讲述了当前常用的几种流形学习算法以及在流形方面已经取得的研究成果,并对流形学习目前在各方面的应用作了较为细致的阐述。最后展望了流形学习的研究发展趋势,且提出了流形学习中仍需解决的关键问题。   关键词:流形学习;主流形;局部线性嵌套;等度规映射;变分法;互信息   中图分类号:TP301文献标志码:A   文章编号:1001-3695(2007)07-0214-04      0引言??      机器学习过程中,往往面临庞大的数据量,要在保证数据信息足够完整的条件下合理地约简数据集,是对其提出的严峻挑战。以往的系统大多使用线性方法(如维数约简中的线性主成分分析(PCA)等),通过特征的线性组合来降维,本质上是把数据投影到线性子空间,这种方法相对简单且容易计算。但由于现实中有用特征往往不是特征的线性组合,线性方法不能有效地处理庞大的高维数据。经试验发现,许多高维采样数据均由少数隐含变量所决定,这些隐含变量是以嵌套在高维欧式空间的组合型非线性流形存在的。为此,本文提出了一种新的机器学习方法――流形学习算法。??      目前,在流形学习上存在大量的研究方法。按照对观测空间数据几何结构的分析将其分成五个主要的研究领域,即神经网络、主流形、谱分析、变分法和互信息。本文从上述几方面对流形学习的一些方法进行了总结。??   1主要研究方法与成果??   1.1主流形??   1.1.1主流形框架??      自相合就是对于??f的每个点(在X??分布下)都是所有点的集合。这样,Hastie强调主曲线的非参数方法,即曲线类型未知,在曲线簇中选择满足自相合的有中间性的曲线。但实验证明这种算法存在模型偏差和估计偏差,并且在实际应用过程中经常采用局部光滑子或者样条函数来近似寻优,这偏离了原有的自相合性质。??   之后的BR主曲线[2]改进了HS主曲线的算法,减小了估计偏差对实际曲线的影响,但其产生的数据不稳定,有可能得到光滑但不正确的主曲线。T主曲线[3]引入了半参数法,算法过程中利用EM算法来估计主曲线,且假定噪声是正态分布的,这与HS主曲线的无参数原则相背离。Kégl证明了在理论分布下定义的K主曲线[4]的存在性和唯一性,利用统计学方法用多边形线算法来估计K主曲线。这是第一次可以证明主曲线存在,但是限制条件是曲线的长度必须预先固定。Smola提出了试图向高维推广的基于统计学习理论的正则主流形,采用监督学习中的量化误差最小理论下的正则化来寻找具有多种正则项的正则主流形[5]。Delicado给出了主定向点概念和基于定向点的D主曲线[6]理论,这保持了自相合特点,并且利用参数模型可以向高维推广。Verbeek提出了K主曲线[7]算法,即用局部主成分算法来构造K段线段,再连接成光滑的主曲线,不足之处是无法向高维推广。??   1.1.3主流形的应用??   主曲线最初应用于斯坦福线性加速器上,其目标函数可由磁铁之间的光滑度来控制。之后,在其他方面应用也很广泛,如生态学、语音识别、智能交通[8]等。??      1.2谱分析??   谱分析是一种经典的数学分析方法。与经典的谱分析不同的是,流形学习中的谱分析是利用局部结构来描述整体的,不具备全局线性结构。其目的是寻找最优基函数的组合来构造数据集内在低维嵌套结构,实质上最终目标还是期望获得具有全局线性坐标的数据结构。采用谱分析来完成流形学习的方法包括等度规映射(ISOMAP)、局部线性嵌套(LLE)、Laplacian特征映射和核主成分分析(KPCA)。??   1.2.1等度规映射(Isometric Feature Mapping,ISOMAP)[9]??   多维尺度变换(MDS)是一种非监督的维数约简方法。其基本思想是:约简后的低维空间中任意两点间的距离应该与它们在原始空间中的距离相同。等距映射(ISOMAP)算法的基本思想是在多维尺度变换的基础上,力求保持数据点的内在几何性质,即保持两点间的测地距离,如图2所示。ISOMAP算法的核心就是要估计两点间的测地距离:保证离得很近的点间的测地距离用欧氏距离代替;离得较远的点间的测地距离用最短路径来逼近。??      1.2.5核主成分分析(Kernel Principal Component Analysis,KPCA)[1

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档