基于隐含语义馆藏资源检索的研究.docVIP

下载本文档

2
0
约7.23千字
约 5页
2017-09-03 发布于安徽
举报
版权申诉

基于隐含语义馆藏资源检索的研究.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于隐含语义的馆藏资源检索研究徐晓琳（重庆工学院图书馆重庆 400050）文　摘：本文通过基于隐含语义的数据库检索实例，运用隐含语义检索思想和工作步骤将文档的词汇信息表示成具有潜在语义的组合，通过语义分析对得到的同义词和多义词进行检索，提高了信息检索的查准率和查全率，从而解决了关键词简单匹配方法中因词汇的语义不同带来的问题。关键词：隐含语义分析隐含语义空间文献资源信息检索 The Research of Librarys Resources Retrieval Based on Latent Semantic Analysis Xu Xiaolin （ Library of Chongqing Institute of Technology,Chongqing 400050） Abstract: This paper uses the main idea and work process of Latent semantic retrieval to make glossary information become latent semantic combination by database retrieval example based on latent semantic analysis.Semantic analysis improves the Recall and Precision of Information retrieval, thus solves the problem which the glossary semantics differently brings in the key word simple match method . Keywords: Latent semantic analysis Latent semantic space Document resources Information retrieval 1 隐含语义检索目前, 大多数信息检索方法是基于关键词匹配的检索, 即检索到的有关信息与检索者的检索请求具有共同使用的词语。但是, 由于语言在使用上存在着差别，一方面，不同的用户对同一个事物的表达经常使用不同的词汇（即同义词的大量存在），另一方面，许多词汇具有一词多义性(即多义词)，而且，相同的词汇在不同的上下文和不同的领域中所代表的意义也可能不一样，如果忽视上下文语境的限制，仅以孤立的关键字来表示文档的内容，势必影响检索结果的准确性和完整性。这种情况可能造成两种结果：一是用户的信息检索请求可能不与相关文件匹配；二是用户的信息检索请求又可能与不相关的文件匹配。隐含语义检索就是针对因词语含义的差别造成检索困难的问题而提出的。它假设词汇在文档集合的使用模式中存在着潜在的语义结构。这种潜在的语义结构隐含在文档中词汇的上下文使用模式中，即同义词之间具有基本相同的语义结构，多义词之间必定具有多种不同的语义结构，而词语之间的这种语义结构体现为它们在文档集合中出现的频率上也具有一定的联系。因此，采用统计学的方法对大量的文档进行分析来寻找这种潜在的语义结构，并用语义结构来表示词汇和文档之间的关系，并量化这些潜在的语义结构，把虽然不含检索字段但相关的文档提取出来，经过转换后，相关的词汇因所检索的文档中包含有相关的内容而产生关连，进而消除同义词、多义词的影响，提高检索结果的准确性。隐含语义检索解决了基于关键字检索中遇到的同义词和多义词的问题。其工作原理是将每个文档视为以词汇为坐标系的空间中的一个点，认为一个包含语义的文档出现在这种空间中它的分布绝对不是随机的，而是服从某种语义结构。同样地，也将每个词汇视为以文档为坐标系的空间中的一个点。文档是由词汇组成的，而词汇又要放到文档中去理解，体现了一种“词汇--文档”双重概率关系。然后利用矩阵理论中的“奇异值分解”技术，将词频矩阵转化为奇异矩阵，较小的奇异值被剔除。结果奇异向量以及奇异值矩阵用于将文档向量和检索向量映射到一个子空间中。这个过程就是运用奇异值分解降秩的方法以达到缩小数据的规模，并且使得原本稀疏的数据变得不再稀疏，从而呈现出一些潜在的语义结构。在这个子空间中，来自词汇－文档矩阵的语义关系被保留，同时词汇用法的变异被抑制。最后，可以通过标准化的内积计算来计算向量之间的夹角余弦值（即检索词与文档之间的相似度），再将文档按与检索词的相似度降序排列，形成检索结果信息集合。　 2 隐含语义检索与传统关键词检索的不同点隐含语义检索方法与典型的基于关键字匹配方法相比，有效地解决了同义词和多义词的问题，提高了查准率和查全率。隐含语义检索与传统的基于关键字匹配检索相比，具有以下不同：（1）基于关键词匹配