隐含语义索引模型分析与研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
隐含语义索引模型分析与研究

隐含语义索引模型分析与研究   摘要:在深入分析向量空间模型基础上,对其进行扩展,设计了一种隐含语义索引模型――LSI。LSI通过奇异值分解,将词向量和文档向量投影到一个低维空间,消减了词和文档之间的语义模糊度。理论分析证明,隐含语义索引模型具有更准确的文档语义内容的表达能力,能够取得更好的检索效果。   关键词:向量空间模型;隐含语义索引;信息检索   中图分类号: TP183   文献标识码:A      0引言??      在向量模型中,信息获取系统如果涉及n个关键词,则建立n维的向量空间,每一维都代表不同的关键词,信息库中的文本以及用户的查询都通过该空间中的向量来表示,文档向量是一个n元组,其中的每个坐标都通过对应关键词的权重来表示。权重越大,则相应关键词对于该文档来说越重要。查询向量与文档向量类似,只不过查询向量中的权重表示对应关键词对于用户来说的重要程度。一般说来,权重1表示期望在文档中出现的词条,而0表示不希望出现的词条。向量模型的缺点在于:在向量模型中,关键词是被假设为相互独立的,而实际上一个文档中的关键词之间可能存在着―定的联系[1]。本文设计了一种扩展的向量空间模型―隐含语义索引模型[2,3](Latent Semantic Indexing, LSI)作为对向量空间的一种改进。LSI利用统计计算导出的概念特征词索引文档并进行信息检索,而不再是传统的索引词,从而消减了词和文档之间的语义模糊度,使得词与词之间、词与文档之间的语义关系更为明晰,在一定程度上实现了语义检索,消除了语词同义性和多义性所造成的影响。??   LSI是在向量空间的基础上进行词条关系处理的,并基于这样一种断言,即大量的文档集合中存在隐含的关于词语使用的语义结构,这种语义由于部分的被文档中词的语义和形式上的多样性所掩盖而不明显。因此,LSI试图绕过自然语言理解,运用统计运算的方法来发现词语使用的潜在的语义结构,获得文档潜在的语义概念空间结构,从而利用概念索引取代关键词索引。它通过对原文档库的关键词―文档向量矩阵进行奇异值分解,取前k个最大的奇异值及其对应的奇异矢量构成一个新矩阵来近似表示原文档库的词―文档矩阵,由于新矩阵消减了词和文档之间语义关系的模糊度,消除了词语用法(同义性和多义性)所造成的影响,因而更有利于提高信息检索的精确度。      1LSI的基本思想??      在传统的向量空间模型中,既然每个文档可以表示成词条向量空间的矢量Di=(wi1,wi2,…,wim)(T1,T2,…,Tm)T,那么每个词条也就可以表示为文档空间的矢量Tj=(w1j,w2j,…,wnj)(D1,D2,…,Dn)T,这样,词条与词条之间的相似性也就可以用向量夹角余弦来计算。??   在LSI模型中,一个文档库可以表示为一个m×n的词―文档大矩阵A。这里,n表示文档库中的文档数,m表示文档库中包含的所有不同的词的个数。也就是说,每一个不同的词对应于矩阵A的一行,每一个文档对应于矩阵A的一列。A表示为:??   矩阵的元素aij为特征项Ti在文档Dj中的出现频度或权重。客观上,由于词和文档的数量都很大,而单个文档中出现的词又非常有限,因此,A一般为高阶稀疏矩阵。??   利用向量代数的相关知识可以证明,矩阵A可以分解为三个矩阵的乘积:??   其中,矩阵?蚴嵌越窍呔卣螅?对角线上的元素称为矩阵A的奇异值。矩阵U和矩阵V两个矩阵的列向量都是正交归一化的。U是m×r矩阵,称为“左奇异值向量矩阵”;V是r×n矩阵,称为“右奇异值向量矩阵”;其中r是矩阵A的秩,且有:??   这种分解叫做奇异值分解(Singular Value Decomposition, SVD)[4],如图1所示。??   不难做到把矩阵?蚨越窍呱系钠嬉熘笛囟越窍叽哟蟮叫〉菁跖帕校?之后再把矩阵?虻?r个对角元素的前k个保留,后r-k个置0,并取U和V最前面的k个列构建A的k?仓冉?似矩阵Ak。于是,我们可以得到一个新的近似的分解:??   这里,Uk和Vk的列向量均为正交向量。这样,就用Ak近似地表征原词―文档矩阵A,Uk和Vk中的行向量分别作为词向量和文档向量,在此基础上再进行文档检索和其他各种文档处理。这就是隐含语义索引技术的基本思想。??   隐含语义索引模型相应地提供了同文档检索密切相关的几个问题的答案:??   (1) 关键词Ti和文档Dj有多相关?这一类问题是术语和文件的关联问题。??   从矩阵Ak本身的建立可知,其第i行第j列元素就表明了关键词Ti和文档Dj的相关联程度。这对于准确表示关键词在文档中的权重有着很重要的作用,将大大提高查询的相关度。??   (2) 文档Di和Dj有多相似?这一类问题是文档的类比和聚类问题。

文档评论(0)

130****9768 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档