- 1、本文档共44页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
周志华 机器学习 西瓜书 全书16章 ppt Chap10降维和度量学习
* * * * * * * * * * * * * * * * * 流形学习 等度量映射(Isometric Mapping,Isomap) 低维流形嵌入到高维空间之后,直接在高维空间中计算直线距离具有误导性,因为高维空间中的直线距离在低维嵌入流形上不可达。而低维嵌入流形上两点间的本真距离是“测地线”(geodesic)距离。 流形学习 等度量映射(Isometric Mapping,Isomap) 测地线距离的计算:利用流形在局部上与欧氏空间同胚这个性质,对每个点基于欧氏距离找出其近邻点,然后就能建立一个近邻连接图,图种近邻点之间存在连接,而非近邻点之间不存在连接,于是,计算两点之间测地线距离的问题,就转变为计算近邻连接图上两点之间的最短路径问题。 最短路径的计算可通过Dijkstra算法或Floyd算法实现。得到距离后可通过多维缩放方法获得样本点在低维空间中的坐标。 流形学习 等度量映射(Isometric Mapping,Isomap) 流形学习 局部线性嵌入 (Locally Linear Embedding,LLE) 局部线性嵌入试图保持邻域内的线性关系,并使得该线性关系在降维后的空间中继续保持。 流形学习 局部线性嵌入 (Locally Linear Embedding,LLE) LLE先为每个样本 找到其近邻下标集合 ,然后计算出基于 的中的样本点对 进行线性重构的系数 : 其中 和 均为已知,令 , 有闭式解 流形学习 局部线性嵌入 (Locally Linear Embedding,LLE) LLE在低维空间中保持 不变,于是 对应的低维空间坐标 可通过下式求解: 令 则优化式可重写为右式,并通过特征值分解求解。 流形学习 局部线性嵌入 (Locally Linear Embedding,LLE) 度量学习 研究动机 在机器学习中,对高维数据进行降维的主要目的是希望找到一个合适的低维空间,在此空间中进行学习能比原始空间性能更好。事实上,每个空间对应了在样本属性上定义的一个距离度量,而寻找合适的空间,实质上就是在寻找一个合适的距离度量。那么,为何不直接尝试“学习”出一个合适的距离度量呢? 度量学习 欲对距离度量进行学习,必须有一个便于学习的距离度量表达形式。对两个 维样本 和 ,它们之间的平方欧氏距离可写为 其中 表示 与 在第 维上的距离。若假定不同属性的重要性不同,则可引入属性权重 ,得到 其中 是一个对角矩阵, ,可通过学习确定。 度量学习 的非对角元素均为零,这意味着坐标轴是正交的,即属性之间无关;但现实问题中往往不是这样,例如考虑西瓜的“重量”和“体积”这两个属性,它们显然是正相关的,其对应的坐标轴不再正交。为此将 替换为一个普通的半正定对称矩阵 ,于是就得到了马氏距离(Mahalanobis distance)。 其中 亦称“度量矩阵”,而度量学习则是对 进行学习。注意到为了保持距离非负且对称, 必须是(半)正定对称矩阵,即必有正交基 使得 能写为 。 对 进行学习当然要设置一个目标。假定我们是希望提高近邻分类器的性能,则可将 直接嵌入到近邻分类器的评价指标中去,通过优化该性能指标相应地求得 。 度量学习 近邻成分分析(Neighbourhood Component Analysis, NCA) 近邻成分分析在进行判别时通常使用多数投票法,邻域中的每个样本投1票,邻域外的样本投0票。不妨将其替换为概率投票法。对于任意样本 ,它对 分类结果影响的概率为 当 时, 最大。显然, 对 的影响随着它们之间距离的增大而减小。若以留一法(LOO)正确率的最大化为目标,则可计算 的留一法正确率,即它被自身之外的所有样本正确分类的概率为 其中 表示与 属于相同类别的样本的下标集合。 度量学习 近邻成分分析(Neighbourhood Component Analysis, NCA) 整个样本集上的留一法正确率为 由 和 ,则NCA的优化目标为 求解即可得
文档评论(0)