周志华机器学习西瓜书全书16章 ppt Chap10降维和度量学习.pptVIP

下载本文档

62
0
约8千字
约 44页
2019-09-10 发布于河北
举报
版权申诉

周志华机器学习西瓜书全书16章 ppt Chap10降维和度量学习.ppt

1、本文档共44页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

周志华机器学习西瓜书全书16章 ppt Chap10降维和度量学习

* * * * * * * * * * * * * * * * * 流形学习等度量映射(Isometric Mapping，Isomap) 低维流形嵌入到高维空间之后，直接在高维空间中计算直线距离具有误导性，因为高维空间中的直线距离在低维嵌入流形上不可达。而低维嵌入流形上两点间的本真距离是“测地线”(geodesic)距离。流形学习等度量映射(Isometric Mapping，Isomap) 测地线距离的计算：利用流形在局部上与欧氏空间同胚这个性质，对每个点基于欧氏距离找出其近邻点，然后就能建立一个近邻连接图，图种近邻点之间存在连接，而非近邻点之间不存在连接，于是，计算两点之间测地线距离的问题，就转变为计算近邻连接图上两点之间的最短路径问题。最短路径的计算可通过Dijkstra算法或Floyd算法实现。得到距离后可通过多维缩放方法获得样本点在低维空间中的坐标。流形学习等度量映射(Isometric Mapping，Isomap) 流形学习局部线性嵌入 (Locally Linear Embedding，LLE) 局部线性嵌入试图保持邻域内的线性关系，并使得该线性关系在降维后的空间中继续保持。流形学习局部线性嵌入 (Locally Linear Embedding，LLE) LLE先为每个样本找到其近邻下标集合，然后计算出基于的中的样本点对进行线性重构的系数：其中和均为已知，令，有闭式解流形学习局部线性嵌入 (Locally Linear Embedding，LLE) LLE在低维空间中保持不变，于是对应的低维空间坐标可通过下式求解：令则优化式可重写为右式，并通过特征值分解求解。流形学习局部线性嵌入 (Locally Linear Embedding，LLE) 度量学习研究动机在机器学习中，对高维数据进行降维的主要目的是希望找到一个合适的低维空间，在此空间中进行学习能比原始空间性能更好。事实上，每个空间对应了在样本属性上定义的一个距离度量，而寻找合适的空间，实质上就是在寻找一个合适的距离度量。那么，为何不直接尝试“学习”出一个合适的距离度量呢？度量学习欲对距离度量进行学习，必须有一个便于学习的距离度量表达形式。对两个维样本和，它们之间的平方欧氏距离可写为其中表示与在第维上的距离。若假定不同属性的重要性不同，则可引入属性权重，得到其中是一个对角矩阵，，可通过学习确定。度量学习的非对角元素均为零，这意味着坐标轴是正交的，即属性之间无关；但现实问题中往往不是这样，例如考虑西瓜的“重量”和“体积”这两个属性，它们显然是正相关的，其对应的坐标轴不再正交。为此将替换为一个普通的半正定对称矩阵，于是就得到了马氏距离(Mahalanobis distance)。其中亦称“度量矩阵”，而度量学习则是对进行学习。注意到为了保持距离非负且对称，必须是（半）正定对称矩阵，即必有正交基使得能写为。对进行学习当然要设置一个目标。假定我们是希望提高近邻分类器的性能，则可将直接嵌入到近邻分类器的评价指标中去，通过优化该性能指标相应地求得。度量学习近邻成分分析(Neighbourhood Component Analysis, NCA) 近邻成分分析在进行判别时通常使用多数投票法，邻域中的每个样本投1票，邻域外的样本投0票。不妨将其替换为概率投票法。对于任意样本，它对分类结果影响的概率为当时，最大。显然，对的影响随着它们之间距离的增大而减小。若以留一法(LOO)正确率的最大化为目标，则可计算的留一法正确率，即它被自身之外的所有样本正确分类的概率为其中表示与属于相同类别的样本的下标集合。度量学习近邻成分分析(Neighbourhood Component Analysis, NCA) 整个样本集上的留一法正确率为由和，则NCA的优化目标为求解即可得

您可能关注的文档

文档评论（0）

zsmfjy + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

周志华机器学习西瓜书全书16章 ppt Chap10降维和度量学习.pptVIP