基于历史点击数据的分布式信息检索集合选择方法-计算机应用技术专业论文.docxVIP

下载本文档

2
0
约4.63万字
约 60页
2019-04-12 发布于上海
举报
版权申诉

基于历史点击数据的分布式信息检索集合选择方法-计算机应用技术专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

／『㈣㈣㈣舢Y204岩舀岑攀／『㈣㈣㈣舢 Y204岩舀岑攀浙江大学硕士学位论文摘要集合选择是分布式信息检索过程中的重要一环，其在尽量不影响检索效果的情况下，选择和查询相关度高的部分集合进行检索。目前大多数集合选择算法根据主要通过集合的静态统计信息来来评价集合的相关度，忽略了集合检索返回文档的有效性及查询日志的价值。查询日志包含大量用户查询信息及各查询对应的点击情况，被广泛用于提高信息检索的效率和质量。基于此，本文针对分布式信息检索时不同信息集对最终检索结果贡献度有差异的现象，提出一种基于历史点击数据的集合选择方法(PCTDCS)。该方法利用点击数据估计各集合与历史查询的相关度。采用基于关键词和基于检索结果相结合的方法估计查询间的相似度。利用历史查询中的相似查询估计新查询与各集合的相关度，进而选择相关度最高的M个集合进行检索，并给出了要获取前k 个文档的情况下各集合应当返回的文档数。采用Rm、P@n和MAP对集合选择方法的性能进行了验证。实验结果表明：PCTD-CS较ReDDE提高了检索结果的召回率和准确率，能更准确的定位到包含相关文档多的集合。总的来说，本文的主要贡献如下： 1)针对用户查看检索结果时只关注排名靠前的结果，综合考虑检索的有效性，提出了一种基于点击数据的历史查询与集合相关度的计算方法。 2)由于真实检索环境下，相同查询或相似查询经常出现，提出了一种根据历史查询中的相似查询估计新查询与集合相关度的计算方法。 3)针对集合返回大量文档干扰最终检索结果准确率的现象，提出系统要获取k个文档的情况下，各集合根据其相关度应返回文档数的计算方法。关键词：分布式信息检索：集合选择：相似查询：点击数据；浙江大学硕士学位论文浙江大学硕士学位论文 Abstract Abstract Collection selection is a important part of Distributed information retrieval．which aim to select the most appropriate document collections to delegate the user query, Most prior research of resource selection focu严d on selecting information SOurCeS by analyzing smile information of available information sources that is sampled in the offline manner．On the other hand,most prior research ignored a large amount of valuable information of query log．Query log contains a lot of data like user queries and click-through data．which are widely used to improve the efficiency and quality of information retrieval． Motivated by this problem,considered that collections have different contributions to the final retrieval results，an approach of collection selection based on click-through data was proposed．Click4hrough data of past queries were utilized for estimating the relevance of each collection to the query．A term—based and results-based mixed approach was used to estimate the similarity between queries．Past similar queries were used to predict the relevance of collections to a specific user quer