浅述流形学习及其算法.docVIP

下载本文档

45
0
约7.56千字
约 15页
2018-11-23 发布于福建
举报
版权申诉

浅述流形学习及其算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

浅述流形学习及其算法

浅述流形学习及其算法　　摘要：流形学习是借助几何学中子流形的概念，利用流形的结果和性质来挖掘嵌入在高维空间中的数据集的真实的低维结构。本文在介绍流形学习具体算法的基础上，通过MATLAB分析了不同算法的特点，对不同算法之间的关系进行了比较。基于此分析，我们对现有流行学习的缺点及局限提出了优化方法及改进方法。　　关键词：流形学习；算法；映射；数据集　　中图分类号：TP301.6 文献标识码：A 文章编号：1671-2064（2018）01-0219-04 　　1 引言　　对于如今的机器学习来说，面临着所需处理的数据量、数据特征递增的趋势，但是有效的数据特征相对较少，为了减轻不必要的时间消耗，在处理数据之前都要对数据的特征进行稀疏化，一种方法是直接对数据的维数进行降维，来达到重要特征提取的目的。另一种是对数据的特征进行稀疏化，把没用的特征信息都设置为零，从而达到特征稀疏的目的。本文主要从降维这个角度来进行探讨。　　早期主要的降维方法是线性降维算法主成分分析法PCA[6]，其主要过程是研究一个线性降维映射，将高维空间中的样本点集投影到低维空间中。PCA[6]通过最大化数据点集之间的协方差矩阵来选取数据点集分布的最主要的特征，从而达到降维的目的。这种算法适用于处理的数据集呈现线性分布。但是针对分布呈现复杂的非线性分布，PCA很难达到较好的降维效果。非线性分布的高维样本点集，其所在的非线性空间可以看成是嵌入在高维空间的低维非线性子空间。在机器学习中通常采用kernel函数的方法来进行处理，称之为kernel PCA[7]。这种算法存在的问题是很难选择一个合适的kernel函数，如果kernel选择的不合适反而会对学习过程造成很大的影响，增加学习的时间消耗，且最终的降维效果也不会很好。　　针对复杂的非线性分布的数据点集，虽然全局结构无法获得，但我们可以看出数据点集的很小的局部邻域结构还是呈现出线性分布结构。对于这种局部呈现出线性结构而全局呈现出非线性结构的数据点，我们将其假设成分布在某个流形上，其降维过程称为流形学习。　　流形学习是一类借鉴拓扑流形概念的降维方法。“流形”是在局部与欧氏空间同胚的空间，直观上来说“流形”的局部邻域可以近似的看成是欧氏空间结构。根据流形的这个性质所设计出的流形学习算法都是从流形的局部结构出发通过保持流形的局部线性结构来对高维样本点集进行降维。当然流形的全局结构也是从局部结构出发来获取全局的结构。流形学习算法，大致可以分为两大类，都是在假设流形的局部邻域为线性空间基础上进行的。一类是保持全局结构的非线性降维算法，如Isomap[2]：Isomap又称为等距映射算法，目的是保持降维前后任意两点之间的真实的距离结构。在流形上，任意两点之间的真实的距离不是两点之间的欧氏距离，而是两点之间的测地线距离。所以Isomap旨在保持任意两点之间的测地线距离。另一类是保局部结构的降维算法，如LLE[1]，LEP[3]，LPP[9]，LTSA[5]，HLLE[4]等。LLE算法旨在保持样本点局部邻域的线性组合结构，通过假设高维样本点的局部邻域是线性结构，然后计算每个样本点与其邻域点之间的线性相关系数，由此在低维空间中邻域点之间还保持相同的线性相关性。LEP算法旨在保持局部样本点之间的结构，降维的主要思想是距离较近的点降维后还是距离较近，在算法设计中通过建立样本点集之间的局部邻域图结构，任意两点之间的边赋予相应的权重，通过权重来体现局部邻域点之间的距离关系。LPP继承了LEP算法的思想，给出保持局部结构的线性降维算法。LTSA算法也是将流形的局部邻域假设成线性空间，然后在局部邻域上利用PCA进行降维。　　2 基本知识介绍　　流形学习算法的共有的前提假设是，所要降维的高维样本点集分布在某个非线性流形F上，此流形是嵌入在高维欧氏空间中的一个子流形。流形学习的目的是从高维空间中挖掘出子流形F的真实的低维表示结构。为了算法的需求，我们假设高维样本点集表示为{x1，x2，…，xN}∈FRD，其中N表示样本点集的个数，D表示高维样本点集的维数。对应的低?S样本点集表示为{y1，y2，…，yN}∈YRd，其中d表示低维样本点集的维数。基于此目的，我们给出流形学习的形式化定义。　　流形学习的目的是挖掘高维样本点集产生的机制，表示为映射f，具体的表示形式如下：f：Y→FRD。　　在降维过程中，流形的全局或局部几何结构得到保持。　　3 算法描述　　3.1 等距映射　　Isomap[2]又称等距映射算法，其目的是保持降维前后所有样本点集之间的全局距离结构。Isomap借助MDS[8]来挖掘高维样本点集之间真实的内在结构。MDS[8]是保持降维后高维样本点集之间的欧氏距离结构。而Isomap旨