- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
讨论:假设文档集合如下:
讨论:假设文档集合如下:
pTerm-Document矩阵:
Similarity(human,user)?
数学基础
ØSVD(SingularValueDecomposition,奇异值分解)是线性代数中一种重要的
矩阵分解方法,广泛应用于信号处理、统计学、机器学习、自然语言处理等领域。
ü定义
对于任意一个实数或复数矩阵,其SVD分解形式为:
其中:
•是一个正交矩阵(列向量为左奇异向量);
•是一个正交矩阵(列向量为右奇异向量);
•是一个对角矩阵,对角线上的非负实数称为奇异值(
singularvalues),通常按从大到小排列:,
其中rrank(A)。
数学基础
Ø低秩近似
ü定义对任意kr,最佳秩-k近似为:
其中,U取前k列,Σ为前k个奇异值,V为前k列。
kkk
潜在语义分析(LSA)
潜在语义分析旨在解决不能准确表示语义的问题,
试图从大量的文本数据中发现潜在的,以表示文本的语
义内容。
Topic
•使用向量来表示和
•通过向量间的关系(如夹角)来判断及间的关系
•将和映射到潜在语义空间
潜在语义分析(LSA)
Ø已知:
D{d,d,...,d]文本的集合
12n
W{w,w...,w]在所有文本中出现的单词的集合
12m
Ø构造单词向量空间:词-文档矩阵
潜在语义分析(LSA)
Ø构造话题向量空间:词-话题矩阵
假设:
•所有文本共有k个
其中t是单词w在话题t上的权值,
•每个由一个m维向量表示ilil
代表该单词在该话题中的重要程度。
•k个话题张成一个话题向量空间:
单词-话题矩阵T:
如果两个文本的话题相似,那么两者的
语义应该也相似。
每一列都对应了一个话题
潜在语义分析(LSA)
Ø文本在话题向量空间中的表示:话题-文本矩阵Y:
每一列对应一个文本
您可能关注的文档
最近下载
- 英语辅导班招生简章模板.pdf VIP
- 化学品安全技术说明书固化剂msds.pdf VIP
- 数据结构期末考试试卷a卷.doc VIP
- 人教版一年级语文上册期中考试试题(共3套,可直接打印).docx VIP
- 幼儿园保教综合楼招标控制价的编制.docx VIP
- 《通风与空调工程施工质量验收规范》GB50243-2016.docx VIP
- 医院标识标牌采购投标方案.docx
- 2025年外研版(三起)(2024)小学英语四年级上册期末考试模拟测试卷及答案.docx
- 专题233相似图形相似三角形的判定(举一反三讲义)数学华东师大版九年级上册(原卷版).docx
- 对跨越架设施及施工的基本要求.doc VIP
原创力文档


文档评论(0)