基于查询空间分布式集合划分算法.docVIP

下载本文档

0
0
约4.15千字
约 10页
2018-08-30 发布于福建
举报
版权申诉

基于查询空间分布式集合划分算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于查询空间分布式集合划分算法

基于查询空间分布式集合划分算法　　摘要：合理的文档集合划分能够有效的提高分布式信息检索的效果，本文针对分布式信息检索中的集合划分问题，提出了一种基于查询空间的文档集合划分算法。与传统的基于文档空间的划分算法相比，该算法从一种全新的角度看待和理解文档集合划分问题，给出了一种针对大规模海量信息的文档集合划分解决方案。实验表明该算法在算法效果和算法效率方面都有很大的提高。　　关键词：计算机应用；中文信息处理；分布式信息检索；文档集合划分；聚类　　中图分类号：TP391 　　文献标识码：A 　　　　1　前言　　　　集合划分是影响分布式信息检索效果的一个重要问题。在分布式WEB信息检索中，开展集合划分的目的是希望通过集合划分操作，继而在后面的检索过程中可以通过检索更少的文档而获取更好的检索结果。对于集合划分问题，直观的想法是为了让一个查询的相关文档都集中在一个或少数的集合中，但不同查询的相关文档可能是相同的，因此要实现将一个查询的相关文档都集中在一个或少数几个集合中的想法，常常会出现矛盾和冲突的情况。在以往的工作中，Claudine Badue等人研究了对索引划分的两种策略：一是把文档分布在多台处理机上，并行的建立索引并进行检索，在检索时采用并行检索的方式，每个搜索引擎同时检索；另一种策略是，将建立好的倒排索引，按照关键词的顺序分布在不同的机器上，每个引擎负责处理一部分关键词的倒排索引，在检索时，只有含有查询中关键词的机器，参与到本次检索中。在这个工作中，对于第一种策略文档的分布是随机的，没有根据一定的原则来进行处理，在检索时采用的是并行的处理办法，由于对所有文档集合都要检索，没有降低检索的计算开销。Jeong通过研究对索引的划分来提高检索的效率，但这种对于索引的划分主要考虑的是提高检索的效率，没有对检索的效果进行充分的考虑。1999年SigIR上Xu和W.Bruce Croft等人采用的基于语言模型聚类的方法，把数据按照聚类结果进行划分，取得比较好的实验结果。该工作主要特点是从文档的聚类出发来实现对文档集合的划分。通过文档的聚类，有利于把相关的文档聚集在一个类中，从而改善检索结果的质量，由于文档集合划分是为了进一步检索服务的，因此必须考虑用户查询对于文档集合划分的影响，而该方法主要从文档内容角度出发来实现对于文档集合的划分，没有考虑查询对于文档集合划分的影响，该方法在效率方面也难以面对海量的信息处理。　　本文将尝试从查询空间角度实现对文档集合的划分，该算法将在划分的效率与划分的效果方面具有明显的改善与提高。　　　　2　算法基本思想　　　　集合划分问题，就是要将文档集合划分成若干个子集合，使得进一步的检索能够取得更好的检索结果。文档集合的划分问题，虽然是对文档集合的划分，但绝不能简单的从文档角度看待这个问题，因为文档集合划分的目的是为了更好更方便的查找信息，因此文档集合的划分必须和信息的需求紧密联系起来，而信息需求又是通过查询来体现的。一般的，对于信息检索问题，存在着以下几个相互关联的空间：用户空间、查询空间、文档空间、作者空间，如图1所示。　　传统的文档集合划分算法都是基于文档空间的，也就是说从文档本身角度实现对文档集合的划分，基于文档空间的划分方法是建立在“Closely as-sociated document tend to be relevant to the same requests”这个假设基础之上的。但文档集合的划分最终目标是为查询服务的，如果只关注文档空间而忽略查询空间显然是不合理的。文档集合的划分应该是以有利于查询为导向的划分，其划分的目的是为了更好的实现查询，即：同一个查询的相关文档尽量集中在一个或少数几个文档集合中。　　　　从查询空间出发，要实现对文档空间的划分，必须建立起查询空间与文档空间的联系，这种联系就是查询与文档的相关关系。通过搜索引擎记录的查询日志来建立查询与文档之间的相关关系是一种有效的方法，当用户向搜索引擎发出一个检索请求时，整个检索过程包括用户点击的检索结果都会被搜索引擎记录下来，形成查询日志。查询日志一般记录了用户所查询的查询词、点击查看的文档等。例如“搜狗”搜索引擎的查询日志如图2所示。　　该日志每一行是一个用户访问行为的记录，包括了用户Session ID、查询词、URL(文档)、该URL在检索结果中的排序和用户点击该URL的顺序等信息。用户查询日志记录了用户一系列重要的行为，因此常常被用来帮助提高检索结果的质量。　　如果假设用户通过搜索引擎返回的文档摘要(Snippet)可以判断该文档是否是查询的相关文档，那么可以认为用户点击过的文档都是查询的相关文档，也就是查询日志中每条记录的URL都是其查询词的相关文档，这样利用查