基于增量的ISOMAP算法研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于增量的ISOMAP算法研究.doc

基于增量的ISOMAP算法研究   摘要:本文针对目前的流形学习算法进行分析研究,介绍了流形学习算法的主要算法,特别是对其中的ISOMAP算法进行详细的分析,并针对其存在的缺点进行算法改进,最后通过Swiss Roll和Swiss hole两种数据集实验比较MDS、PCA、ISOMAP、LLE、Hessian LLE、Laplaclan、InLLE和本文提出InISOMAP算法的优劣。   关键词:流形学习 PCA 增量算法   中图分类号:TP181 文献标识码:A 文章编号:1007-9416(2015)05-0000-00   1 引言   随着科技的发展进步,存储技术的发展,信息数据呈爆炸式增长,维度带来的灾难使得很多传统的方法都难以在有效的时间内处理这些大数据。因此,降维算法得到了很多研究人员的关注。经典的降维算法有主成分分析(Principal Component Analysis, PCA)、多维尺度映射 (Multi-dimensional Scaling, MDS)和Fisher判别分析(FDA)等[1]只能处理具有线性结构的数据。非线性降维算法就引起研究学者的关注。   Tenebaum等人从保持高维数据的全局角度出发,在同期的《科学》期刊上提出了ISOMAP算法[2];而Roweis从局部几何结构入手,提出了LLE算法[3]。这两种不同的算法开创了两类不同的流形方法――全局保持算法和局部保持算法,推动了流形学习成为数据分析、机器学习和人工智能等领域的热点研究课题。近年来,流形学习得到了一定的发展,涌现了一些方法,如拉普拉斯特征映射(LE)算法[4]、局部切空间排列(LTSA)算法[5]、最大方差展开(MVU)[6]、Hessian特征映射[7]、局部样条嵌入(LSE)[8]等,这些方法通过使用谱方法求解矩阵的最大(或最小)的特征值所对应的特征向量,再将高维数据映射到特征向量空间上。这些方法有两个重要的特点:一是它们都是全局最优解,由于它们可以转换成凸优化问题求解,因而不会陷入局部最优解;二是都能在多项式时间内求解出来,就算最复杂的MDS算法也只需要O(n3)的时间,因此这对于流形学习的实时性有一定的意义。不过,流形学习存在一些问题,比如流形学习算法都是根据已知数据的结构来求得它在低维空间上的最优解的。此外,流形学习的算法都要求得到每一点的邻接点,近邻参数的选择直接影响了低维空间中的数据结构,如果近邻选取过多,会造成“短路”线性,选取过少,会导致出现大量的非连通的区域等等一些问题。不管在理论上还是应用上,这些问题都值得进一步研究。   2 流形学习算法介绍   以下按照发展的时间顺序简要介绍一些重要的流形学习算法。   主成分曲线(principal curves)和流形给出了一个自然简洁的非线性降维的框架,它通过标准的几何映射将PCA算法推广到构建高维数据的嵌入流形。通常情况下,主成分流形被视为一个优化问题的最优解,评价函数则要考虑数据结构的近似度以及要对使流形变形的情况进行惩罚。最初的估测数据算法主要是线性PCA,SOM或自动编码机。更具弹性的算法有期望最大值算法。   高斯过程潜在变量模型(, GPLVM)[9]是一种随机降维方法,即使用高斯过程计算出高维数据的低维非线性嵌入坐标。它是PCA的统计模型的推广。如同KPCA(kernel PCA)算法,GPLVM也使用一个核函数来计算非线性映射。   曲线成分分析( CCA)[10]的主要思想在输出空间寻找尽可能保持原有数据间距离的点,同时十分重视输出空间中比较小的距离的点。必须要注意的是,使用迭代算法实现CCA时,刚开始关注比较大的距离,然后逐步关注较小的距离,较小距离的信息会代替较大距离的信息。   等规度变换(ISOMAP)算法是Flyoed算法和经典的多维尺度化(MDS)算法的结合。经典的MDS算法以各个数据点之间的距离矩阵作为输入,然后计算各个点的坐标。ISOMAP假设仅仅知道相邻数据点的距离,使用Floyd算法计算不相邻点之间的距离。Floyd算法可以高效的计算出所有数据点之间的距离。最后ISOMAP算法使用MDS算法降维后的所有点的坐标。   局部线性嵌入(LLE)算法与ISOMAP算法是同时提出来的,它相对ISOMAP来说有一些优势,由于利用了稀疏矩阵算法的一些性质使得LLE算法比ISOMAP更快,此外,LLE算法解决许多问题时相比ISOMAP具有更好地结果。HLLE(Hessian LLE)与LLE相似,都是基于稀疏矩阵算法。它能产生比LLE精确得多的结果,但是代价是时间复杂度很高。因此,密集采样的数据很少采用这种方法降维。   3 ISOMAP算法   Isomap算法的主要思想是:局部使用欧式距

文档评论(0)

jingpinwedang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档