LSI潜在语义空间基本原理与代码实现.pdfVIP

下载本文档

0
0
约9.97千字
约 16页
2024-12-16 发布于江西
举报
版权申诉

LSI潜在语义空间基本原理与代码实现.pdf

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

潜在语义分析

1LSAIntroduction

LSA(latentsemanticanalysis)潜在语义分析，也被称为LSI(latent

semanticindex)，是ScottDeerwester,SusanT.Dumais等人在1990

年提出来的一种新的索引和检索方法。该方法和传统向量空间模型

(vectorspacemodel)一样使用向量来表示词(terms)和文档

(documents)，并通过向量间的关系(如夹角)来判断词及文档间的关系；

而不同的是，LSA将词和文档映射到潜在语义空间，从而去除了原始

向量空间中的一些噪音“”，提高了信息检索的精确度。

2传统方法的缺点

传统向量空间模型使用精确的词匹配，即精确匹配用户输入的词与向

量空间中存在的词。由于一词多义(polysemy)和一义多词(synonymy)

的存在，使得该模型无法提供给用户语义层面的检索。比如用户搜

索”automobile”，即汽车，传统向量空间模型仅仅会返回包

含”automobile”单词的页面，而实际上包含”car”单词的页面也可能是用

户所需要的。

下面是LDA原始Paper里举的一个例子：

[1]

上图是一个Term-Document矩阵，X代表该单词出现在对应的文件里，

星号表示该词出现在查询(Query)中，当用户输入查询”IDFin

computer-basedinformationlookup”时，用户是希望查找与信息检索

中IDF（文档频率）相关的网页，按照精确词匹配的话，文档2和3

分别包含查询中的两个词，因此应该被返回，而文档1不包含任何查

询中的词，因此不会被返回。但我们仔细看看会发现，文档1中的

access,retrieval,indexing,database这些词都是和查询相似度十分高

的，其中retrieval和lookup是同义词。显然，从用户的角度看，文档

1应该是相关文档，应该被返回。再来看文档2：computerinformation

theory，虽然包含查询中的一次词information，但文档2和IDF或信

息检索无关，不是用户需要的文档，不应该被返回。从以上分析可以

看出，在本次检索中，和查询相关的文档1并未返回给用户，而无查

询无关的文档2却返回给了用户。这就是同义词和多义词如何导致传

统向量空间模型检索精确度的下降。

3LSA如何解决这些问题

LSA潜在语义分析的目的，就是要找出词(terms)在文档和查询中真正

的含义，也就是潜在语义，从而解决上节所描述的问题。具体说来就

是对一个大型的文档集合使用一个合理的维度建模，并将词和文档都

表示到该空间，比如有2000个文档，包含7000个索引词，LSA使用

一个维度为100的向量空间将文档和词表示到该空间，进而在该空间

进行信息检索。而将文档表示到此空间的过程就是SVD奇异值分解和

降维的过程。降维是LSA分析中最重要的一步，通过降维，去除了文

档中的噪音“”，也就是无关信息（比如词的误用或不相关的词偶尔出现

在一起），语义结构逐渐呈现。相比传统向量空间，潜在语义空间的

维度更小，语义关系更明确。

4SVD分解

[2]

SVD分解作为掌握LSA的基础知识，我单独把它作为一篇文章，可以在这里找到。

5LSA技术细节

[1][3]

本节主要讨论LSA技术细节的理论部分，具体代码层面分析和实践在

第7节讨论。

LSA的步骤如下：

1.分析文档集合，建立Term-Document矩阵。

2.对Term-Document矩阵进行奇异值分解。

3.对SVD分解后的矩阵进行降维，也就是奇异值分解一节所提到的低

阶近似。

4.使用降维后的矩阵构建潜在语义空间，或重建Term-Document矩

阵。

下面是IntroductiontoLatentSemanticAnalysis里面的一个例子，描

述了完整的LSA步骤，例子后面有我的补充：

假设文档集合如下：

原始的Term-Document矩阵如下：

对其进行奇异值分解：

您可能关注的文档

文档评论（0）

186****8661 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

LSI潜在语义空间基本原理与代码实现.pdfVIP