知识表示与处理(2025-第10次课 话题模型).pdfVIP

知识表示与处理(2025-第10次课 话题模型).pdf

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

讨论:假设文档集合如下:

讨论:假设文档集合如下:

pTerm-Document矩阵:

Similarity(human,user)?

数学基础

ØSVD(SingularValueDecomposition,奇异值分解)是线性代数中一种重要的

矩阵分解方法,广泛应用于信号处理、统计学、机器学习、自然语言处理等领域。

ü定义

对于任意一个实数或复数矩阵,其SVD分解形式为:

其中:

•是一个正交矩阵(列向量为左奇异向量);

•是一个正交矩阵(列向量为右奇异向量);

•是一个对角矩阵,对角线上的非负实数称为奇异值(

singularvalues),通常按从大到小排列:,

其中rrank(A)。

数学基础

Ø低秩近似

ü定义对任意kr,最佳秩-k近似为:

其中,U取前k列,Σ为前k个奇异值,V为前k列。

kkk

潜在语义分析(LSA)

潜在语义分析旨在解决不能准确表示语义的问题,

试图从大量的文本数据中发现潜在的,以表示文本的语

义内容。

Topic

•使用向量来表示和

•通过向量间的关系(如夹角)来判断及间的关系

•将和映射到潜在语义空间

潜在语义分析(LSA)

Ø已知:

D{d,d,...,d]文本的集合

12n

W{w,w...,w]在所有文本中出现的单词的集合

12m

Ø构造单词向量空间:词-文档矩阵

潜在语义分析(LSA)

Ø构造话题向量空间:词-话题矩阵

假设:

•所有文本共有k个

其中t是单词w在话题t上的权值,

•每个由一个m维向量表示ilil

代表该单词在该话题中的重要程度。

•k个话题张成一个话题向量空间:

单词-话题矩阵T:

如果两个文本的话题相似,那么两者的

语义应该也相似。

每一列都对应了一个话题

潜在语义分析(LSA)

Ø文本在话题向量空间中的表示:话题-文本矩阵Y:

每一列对应一个文本

文档评论(0)

186****7161 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档