- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
/『㈣㈣㈣舢Y204岩舀岑攀
/『㈣㈣㈣舢
Y204岩舀岑攀
浙江大学硕士学位论文
摘要
集合选择是分布式信息检索过程中的重要一环,其在尽量不影响检索效果的 情况下,选择和查询相关度高的部分集合进行检索。目前大多数集合选择算法根 据主要通过集合的静态统计信息来来评价集合的相关度,忽略了集合检索返回文 档的有效性及查询日志的价值。查询日志包含大量用户查询信息及各查询对应的 点击情况,被广泛用于提高信息检索的效率和质量。
基于此,本文针对分布式信息检索时不同信息集对最终检索结果贡献度有差 异的现象,提出一种基于历史点击数据的集合选择方法(PCTDCS)。该方法利 用点击数据估计各集合与历史查询的相关度。采用基于关键词和基于检索结果相 结合的方法估计查询间的相似度。利用历史查询中的相似查询估计新查询与各集 合的相关度,进而选择相关度最高的M个集合进行检索,并给出了要获取前k 个文档的情况下各集合应当返回的文档数。采用Rm、P@n和MAP对集合选择方
法的性能进行了验证。实验结果表明:PCTD-CS较ReDDE提高了检索结果的召
回率和准确率,能更准确的定位到包含相关文档多的集合。总的来说,本文的主 要贡献如下:
1)针对用户查看检索结果时只关注排名靠前的结果,综合考虑检索的有效 性,提出了一种基于点击数据的历史查询与集合相关度的计算方法。 2)由于真实检索环境下,相同查询或相似查询经常出现,提出了一种根据
历史查询中的相似查询估计新查询与集合相关度的计算方法。 3)针对集合返回大量文档干扰最终检索结果准确率的现象,提出系统要获
取k个文档的情况下,各集合根据其相关度应返回文档数的计算方法。 关键词:分布式信息检索:集合选择:相似查询:点击数据;
浙江大学硕士学位论文
浙江大学硕士学位论文 Abstract
Abstract
Collection selection is a important part of Distributed information retrieval.which aim to select the most appropriate document collections to delegate the user query, Most prior research of resource selection focu严d on selecting information SOurCeS by
analyzing smile information of available information sources that is sampled in the
offline manner.On the other hand,most prior research ignored a large amount of valuable information of query log.Query log contains a lot of data like user queries and click-through data.which are widely used to improve the efficiency and quality of
information retrieval.
Motivated by this problem,considered that collections have different contributions to the final retrieval results,an approach of collection selection based on click-through data was proposed.Click4hrough data of past queries were utilized for estimating the relevance of each collection to the query.A term—based and results-based mixed
approach was used to estimate the similarity between queries.Past similar queries were used to predict the relevance of collections to a specific user quer
您可能关注的文档
- 基于声品质评价的摩托车噪声改进研究-车辆工程专业论文.docx
- 基于统计的蒙古文自动词性标注的研究与实现-计算机应用技术专业论文.docx
- 基于千兆以太网的安全优化技术研究及应用-管理科学与工程专业论文.docx
- 基于遗传算法的最大生产率的车削用量优化-机械工程专业论文.docx
- 基于无线数字传输技术的水泥配料控制系统-计算机应用技术专业论文.docx
- 基于嵌入式系统的网络多媒体信息播控系统设计-电路与系统专业论文.docx
- 基于奇异谱分析研究太阳黑子长期行为的周期性及其预报-理论物理专业论文.docx
- 基于纹理合成的图像复原算法研究-计算机应用专业论文.docx
- 基于利率平价理论的人民币远期汇率研究-金融工程专业论文.docx
- 基于神经网络的多组分保护渣高温物理性能预测模型研究-钢铁冶金专业论文.docx
文档评论(0)