基于半监督学习降维算法研究 .pptVIP

下载本文档

12
0
约5.21千字
约 20页
2018-04-30 发布于福建
举报
版权申诉

基于半监督学习降维算法研究 .ppt

1、本文档共20页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于半监督学习降维算法研究

* 随着计算能力的日益增强和存储容量的增大，大规模数据的获取较以往更为方便和普遍，同时也产生了新的问题。在多数实际应用中，如计算生物学、图像分析和计算机视觉、信息检索的文本分析、文本挖掘和生物特征认证等，获得的数据是高维的。这种高维性质一方面导致了维数灾难的出现，另一方面是不能被人的感知直接理解及发现数据集的内在的规律。因此有必要对高维数据采用某种维数约简方法进行降维处理。之所以能对高维数据进行降维，是因为数据的原始表示常常包含大量冗余: 1.有些变量的变化比测量引入的噪声还要小，因此可以看作是无关的; 2.有些变量的其他的变量有很强的相关性(例如是其他变量的线性组合或是其他函数依赖关系)，可以找到一组新的不相关的变量。这些冗余信息在处理时常常消耗过多的系统开销，在许多情形下可以从一定程度上剔除这些冗余信息，从而获得更加经济的表示方式。 * 为什么要非线性降维线性降维方法通常假设数据集存在于全局线性结构中，即构成数据集的各变量间是独立无关的，在数据确实具有全局线性时，这些方法可有效地学习出线性结构，并当数据为非线性时，可在一定程度上用全局线性结构近似非线性结构。但现实世界中数据的采样往往受到一些关键的隐含因素的影响。这些关键隐含因素相互影响，作用在模式上，就形成了该模式在不同情况下的多种形态。例如，同一人脸的不同图像是由姿态、光照、距离等关键因素决定的，而这些关键因素中每个因素的变化都会引起大量观测变量（像素）的变化，而数个关键因素共同变化时观测变量的变化并非各个关键因素各自变化之后的线性叠加。这表明，人们处理的数据集常常具有低维度的内在结构，观测变量之间往往存在着高度的非线性相关性。此时，全局线性假设将不再适用，运用线性方法往往无法探寻到数据内部的非线性规律。 * 核方法：核方法的本质实际上就是内积。关于核函数的研究已有百余年的历史，早在1909年，Mercer就提出了核函数能代替内积的的充分必要条件即Mercer定理；1964年，Aizermann等人首次将核函数当作特征空间的内积应用到机器学习中；1975年，多项式核函数得到首次应用。但是，核函数的重要性一直没有得到重视，直到1992年，Vapnik等人将核函数成功应用于支持向量机（SVM），在分类问题问题上，取得了令人瞩目的成就之后，核函数的类型以及基于核函数的学习算法不断涌现。目前核函数应用于机器学习的各个领域，包括数据分类、聚类、回归以及特征降维等。基于数据分类，最典型的应用就是支持向量机（SVM）；对于聚类算法，包含有核k-means聚类、以及模糊核k-means聚类等；对于特征降维算法，包含有核主成分分析（KPCA）、核判别分析（KLDA）、以及基于核的流形学习算法等。 * 狭义来讲，流形学习算法都是非线性的降维技术，只能局限于训练样本，如果要得到新增测试样本的低维坐标，必须将新增样本点带入原数据集，重新计算所有点的低维表示，也就是说，这些方法不能泛化到测试样本，这一问题导致该算法不能适用动态变化的数据集，具有运算量庞大、执行效率低等特点，所以一些线性的流形降维技术相继涌现。例如，2003年，何晓飞等人提出了局部保持投影算法（LPP），LPP可以看做是LE算法的线性化形式，其思想是将高维观测空间到低维空间的变换限制为线性投影变换，通过保持局部邻域结果来得到最佳投影方向。2005年，何晓飞，蔡登等人提出了邻域保持嵌入算法（NPE），它是LLE算法的线性化的形式，假设高维空间到低维空间的映射是线性的，并通过LLE的降维原理来获取数据的低维坐标。这类线性化的流形学习算法具有一般线性算法所不具备的流形学习能力，且能泛化到测试样本。 * 姓名：刘国胜指导老师：王娜副教授基于半监督学习的降维算法研究 * 选题来源：国家自然科学基金项目—— 基于成对约束的半监督谱流形非线性降维研究及应用 * 降维的意义：数据的高维性维数灾难计算复杂性冗余性可视化数据的内在结构和规律 * 降维方法分类线性降维方法： PCA、ICA、LDA和MDS等非线性降维方法：基于核函数的降维方法流形学习算法 * 基于核函数的降维方法核方法：核方法的本质实际上就是内积。目前核方法应用于机器学习的各个领域，包括数据分类：SVM 数据聚类、回归；特征降维：KPCA，KLDA，基于核函数的流形学习算法。核方法实际上是通过非线性映射将样本点映射到高维空间，通过在原空间中使用满足Mercer条件的核函数计算高维空间的内积，从而巧妙地避免了在映射高维空间计算的“维数灾难”问题。对于原空间线性不可分问题，可以在高维映射空间实现线性或近似线性可分。 * 流形学习算法流形是20世纪最