2014.7.3流形学习研究算法研究.ppt

下载文档 降价啦

2
0
约1.12万字
约 39页
2018-04-16 发布于天津
举报
版权申诉
保障服务

2014.7.3流形学习研究算法研究.ppt

1、本文档共39页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

勇于开始，才能找到成功的路 * LLE算法的求解 1.根据欧氏距离，计算每一个点的近邻点； 2.对于点和它的近邻点的权值 , 3.令 , 低维嵌是M的最小的第2到第d＋1个特征向量。勇于开始，才能找到成功的路 * 计算复杂度：选择邻域为O ( Dn2 )，计算重构权值矩阵O (( D + k ) k2 n)，求解低维嵌入Y 为O ( dn2 )。优点算法可以学习任意维的局部线性的低维流形算法归结为稀疏矩阵特征值计算，计算复杂度相对较小 LLE算法的分析缺点算法所学习的流形只能是不闭合的算法要求样本在流形上是稠密采样的算法对样本中的噪声和邻域参数比较敏感勇于开始，才能找到成功的路 * LE (Laplacian Eigenmap) 2002年，Belkin 和Niyogi 基本思想：在高维空间中离得很近的点投影到低维空间中的象也应该离得很近。求解方法：利用流形上Laplacian-Beltrami算子的特征函数三、典型算法分析---LE 勇于开始，才能找到成功的路 * 流形Laplacian-Beltram算子:一般记作（delta）定义：设 M 是光滑的黎曼流形,f是 M 上的光滑函数, （nabla算子）是f的梯度, 则称为 M 上的拉普拉斯算子, 其中div是散度算子。函数 ??????????????????????????的梯度为： ????????????????????????????????????????????????? 梯度的负散度函数 f 的拉普拉斯算子是笛卡儿坐标系中的所有非混合二阶偏导数： ????????????????????? 二维空间 ????????? 三维空间 ????????? 根据谱图理论，如果数据均匀采样于高维空间中的低维流形，那么可以用图的Laplacian矩阵去逼近流形上Laplacian-Beltrami算子，进而可以用图的Laplacian的特征向量去逼近流形上Laplacian-Beltrami算子的特征函数(Belkin and Niyogi, 2003)。勇于开始，才能找到成功的路 * Laplacian Eigenmap 算法流程 1.构建近邻图, (K近邻或邻域)。 2.给每条边赋予权值 3.LE的目标函数为极小化如下损失函数，即确保原来相邻的样本点投影后仍为近邻 4.对任何Y有，其中Y为Laplacian矩阵，D为对角矩阵，元素为权值矩阵的列和，即 ,LE算法的优化问题转化为低维嵌入Y取Laplacian矩阵的最小d+1个特征值对应的特征向量，即边i和边j相连边i和边j不相连勇于开始，才能找到成功的路 * 代表性算法-3 LE (Laplacian Eigenmap) 优点算法是局部非线性方法，与谱图理论有很紧密的联系. 算法通过求解稀疏矩阵的特征值问题解析地求出整体最优解，效率非常高算法使原空间中离得很近的点在低维空间也离得很近, 可以用于聚类缺点同样对算法参数和数据采样密度较敏感不能有效保持流形的全局几何结构总结研究背景理论基础典型算法 * 流形学习名称的由来：这类算法的目的是为了发现嵌入在高维空间中的低维流形，所以叫流形学习 * * 把图像中每一个像素看成是一维信息，那么一副图像就是N2维的向量。线性维数约简方法通过对所有特征的线性组合来降维，计算简单，易于理解，对于具有线性结构分布的数据集，它们往往具有较好的降维效果，且在压缩、降噪以及数据可视化等方面被证明是非常有效的。然而现实世界中所获得的真实数据集更多的呈现出结构非线性或属性强相关性，如图像数据、音视频数据、文本数据和生物数据等。线性维数约简方法的线性本质使其无法发现复杂的非线性数据的内在本质结构。 * 诸如图像数据、音视频数据、文本数据和生物数据等该算法是对人脑神经元“有序排列以及对外界信息的连续映射”特性的一种模拟，SOM 实际上是一个两层神经网络，输入层模拟感知外界输入信息的视网膜，用于接收外界刺激（即输入样本），所在空间称为原空间或样本空间；输出层模拟做出响应的大脑皮层，往往组织成网格形式，称为输出网格，这是一个低维空间，该空间中的每个结点（即输出神经元）在输出网格中都有确定的位置，同时也保存一个与输入样本具有相同维度的权向量。感知的流形方式 * 76×101×3 像素，这些图像可以表示为 76×101×3=23028 维向量空间中的点。Friedman 指出，要使智能机器系统具有一定的泛化能力