- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
优秀硕士毕业论文,完美PDF内部资料。支持编辑复制,值得参考!!!
摘 要
自XML标准发布以来,越来越多的数据开始采用XML进行描述、存储、交换
和展现,面向XML文档的信息检索能力变得日益重要。因此,基于XML数据的信
息检索也就成为了近年来研究的热点。
相关性反馈在信息检索领域中的使用非常普遍,因为利用反馈信息可以更好
地表达用户的查询需求,进而改善系统的检索效果。然而,经过研究发现,现在
主流的反馈算法,如基于添加查询词的反馈算法、基于模型的反馈算法等,主要
应用在纯文本检索中,针对XML元素级检索的反馈算法应用相对较少。
本文首先针对XML信息检索,从查询类型、返回结果的粒度、检索任务以及检
索结果的评价、不同的检索模型及其相关性反馈技术的研究现状等方面较全面地
研究了XML检索技术。接着介绍了主流的XML信息检索系统及综述了现有的针对不
同检索模型的的反馈技术,其中重点介绍了LEMUR系统。
已有研究表明传统的添加查询词反馈算法往往只是简单地选取反馈文档集中
的高频词进行添加查询词,但反馈文档集中的高频词不一定是最相关的词,这样
做虽然可以将结构化查询的平均精度有所提高,但对于非结构化查询(如关键字
查询)而言存在这一定得问题。在此基础之上,本文的反馈算法做了小的改进,
即针对求出的高频词集,选取一种合理的方法从中筛选出相关词进行查询扩展,
同时将查询词的权值信息直接加入到系统的评分模型中并在LEMUR上进行的实验
显示该方法可将非结构化查询的平均精度提高。除了改进添加查询词反馈方法外,
还提出增加了对相关元素结构信息的反馈处理的设想。
在上述工作的基础上,本文最后对改进后的添加查询词部分进行了测试和评
价,总结了本论文研究的理论指导意义和实践指导意义,并指出下一步工作。
关键字:XML信息检索;相关性反馈
1
Abstract
Since the XML standard has been released, more and more began to use XML for
data description, storage, exchange and display, Information retrieval on XML
documents becomes increasingly important. Therefore, XML-based information
retrieval has become a research hotspot in recent years.
Relevance feedback is very common to use in information retrieval field, which
can better express the needs of the users query, thus improve the retrieval effectiveness.
However, the study found that the mainstream feedback algorithms, such as the
feedback algorithm based on query expansion, model-based feedback algorithm,
mainly used in plain text searching, the research for feedback algorithm for the XML
documents is lack.
In this paper, first, we focus on information retrieval on XML documents. We
study it comprehensively from various aspec
文档评论(0)