郑州大学-机器学习 潜在语义分析2.pptxVIP

郑州大学-机器学习 潜在语义分析2.pptx

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

汇报人:冯一帆陈佳辉第十七章

潜在语义分析1

目录CONTENTS1非负矩阵分解2非负矩阵分解的应用3非负矩阵分解的实现4本章总结2

非负矩阵分解013

什么是矩阵分解?矩阵分解是将矩阵拆解为数个矩阵的乘积,主要可分为三角分解法、QR分解法、奇异值分解法等。实际上,生活中许多问题都可以转化为矩阵分解问题。在实际应用中,往往将严格等于限制条件放宽为近似,也就是说允许丢失一部分不重要的信息。4

什么是矩阵分解?基底线性组合系数5

矩阵分解特征:不唯一基底线性组合系数基底线性组合系数6

什么是非负矩阵分解?给定一个非负矩阵X≥0,找到两个非负矩阵W≥0和H≥0,使得即将非负矩阵X分解为两个非负矩阵W和H的乘积的形式,称为非负矩阵分解。定义7

什么是非负矩阵分解?假设非负矩阵X是mxn矩阵,非负矩阵W和H分别为mxk矩阵和kxn矩阵。假设kmin(m,n),即W和H小于原矩阵X,所以非负矩阵分解是对原数据的压缩。WH8

什么是非负矩阵分解?由 知,矩阵X的第j列向量xj满足矩阵X的第j列xj可以由矩阵W的k个列wl的线性组合逼近,线性组合的系数是矩阵H的第j列hj的元素。非负矩阵分解旨在用较少的基向量、系数向量来表示较大的数据矩阵。9

非负矩阵分解与其他矩阵分解方法的不同10

非负矩阵分解传统矩阵分解简便性可解释性强占用存储空间少等因子W和H中的元素可为正或负,即使输入的初始矩阵元素是全正的,传统的秩削减算法也不能保证原始数据的非负性。特点11

非负矩阵分解的应用0212

非负矩阵分解的应用图像分析NMF最成功的一类应用是在图像的分析和处理领域。图像本身包含大量的数据,计算机一般将图像的信息按照矩阵的形式进行存放,针对图像的识别、分析和处理也是在矩阵的基础上进行的。这些特点使得NMF方法能很好地与图像分析处理相结合。13

非负矩阵分解的应用语音处理语音的自动识别一直是计算机科学家努力的方向,也是未来智能应用实现的基础技术。语音同样包含大量的数据信息,识别语音的过程也是对这些信息处理的过程。NMF算法在这方面也为我们提供了一种新方法。14

非负矩阵分解的应用话题分析文本在人类日常接触的信息中占有很大分量,为了更快更精确地从大量的文本数据中取得所需要的信息,针对文本信息处理的研究一直没有停止过。文本数据不光信息量大,而且一般是无结构的。因此,对大规模文本信息进行处理分析的另一个障碍便是如何削减原始数据的维数。NMF算法正是解决这方面难题的一种新手段。15

非负矩阵分解的实现0316

潜在语义分析模型给定一个mxn非负的单词-文本矩阵X≥0假设文本集合共包含k个话题,对X进行非负矩阵分解。即求非负的mxk矩阵W≥0和kxn矩阵H≥0,使得令 为话题向量空间, 表示文本集合的k个话题,令 为文本在话题向量空间的表示, 表示文本集合的n个文本非负矩阵分解的实现17

如何实现非负矩阵分解?18

非负矩阵分解的形式化非负矩阵分解可以形式化为最优化问题求解。首先定义损失函数。第一种损失函数是平方损失。设两个非负矩阵 ,和 ,平方损失函数定义为其下界是0,当且仅当A=B时达到下界。19

非负矩阵分解的形式化另一种损失函数是散度(divergence)。设两个非负矩阵 和 散度损失函数定义为其下界也是0,当且仅当A=B时达到下界。A和B不对称。20

非负矩阵分解的形式化目标函数 关于W和H的最小化,满足约束条件W,H≥0,即或者,目标函数 关于W和H的最小化,满足约束条件W,H≥0,即21

如何实现非负矩阵分解?22

如何实现非负矩阵分解?23

最优化目标函数是 ,为了方便将目标函数乘以1/2,其最优解与原问题相同,记作应用梯度下降法求解。首先求目标函数的梯度同样可得如何实现非负矩阵分解?13224

25

326

如何实现非负矩阵分解?然后求得梯度下降法的更新规则式中 是步长。选取即得乘法更新规则27

非负矩阵分解的迭代算法28

本章总结0429

本章总结1.单词向量空间模型通过单词的向量表示文本的语义内容。30

2.话题向量空间模型通过话题的向量表示文本的语义内容。本章总结31

本章总结3.话题向量空间T也可以表示为一个矩阵,称为单词-话题矩阵。32

本章总结4.潜在语义分析的目标是,找到合适的单词话题矩阵T与话题-文本矩阵Y,将单词-文本矩阵X近似的表示为T与Y的乘积形式。33

本章总结5.潜

您可能关注的文档

文档评论(0)

18670725602aa + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档