分布式信息检索中的重要问题探讨.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分布式信息检索中的重要问题探讨

分布式信息检索中的重要问题探讨   摘 要 分布式信息检索是信息检索中的重要组成部分,一定条件下较传统检索搜索效率高。研究表明,分布式信息检索中面临的主要问题有文档数据库的描述、选择以及如何合并查询结果,本文将逐一进行探讨。   【关键词】分布式信息检索 问题 探讨   分布式信息检索依据查询相关性,选择文档数据库,在其中进行查询,最后将查询后的结果加以合并,反馈给用户。分布式信息检索可对多个文档数据库进行查询,一定程度上提高了检索效率,有关分布式信息检索的研究也因此成为业内人士关注的热点。   1 文档数据库的描述   对多个文档进行分布式信息检索时,首先应确定搜索的起始点,因此,对不同文档数据库进行描述显得尤为必要。为使不同数据库中的词频差异充分显现,尽可能的体现出数据库的特征,提高数据库选择的效率,实际工作中,文档数据库描述是自动生成的。但不同文档数据库描述是否能够共享取决于其所处的环境。即,在非协同环境中,文档数据库并直接共享各自的描述,因此,检索时需借助查询抽样技术,下载不同数据库的相关文本,作为各自的描述。在协同环境中不同文档数据库可用的知识较多,并能计算出不同数据库与查询匹配的评分。   1.1 协同环境中的数据库描述   协同环境下,文档数据库可将与被索引文档相关的大量信息提供给检索代理。不过这一过程的实现需要STARTS协议支持。在该协议下,检索代理中存储了大量数据库结果合并以及选择的重要信息,包括抽样结果、停用词表、文档评分范围等内容。在STARTS协议中定义的查询语言有排序表达式、过滤器表达式两部分构成。其中排序表达式对文档不同域排序的重要性差异进行相关说明,而过滤器表达式主要为提高检索精度,将搜索范围文档进一步缩小,并可供用户对查询匹配的域进行指定。另外,当数据库内容相差较大时,为进一步提高分布式信息检索质量与效率,可能还需借助其他元信息。   1.2 非协同环境中的数据库描述   现实中分布式检索环境多处于非协同环境中,例如,为达到吸引用户的目的,部分数据库可能提供不真实信息。部分数据库为提高安全性,并不提供描述信息。另外,不同数据库描述较为相近时也需要进行认真的探讨,如,有时尽管检索系统建立的索引完全相同,但参数设置哪怕有丝毫的差别,也会导致检索结果出现较大区别,因此,实际检索操作时依赖数据库搜索引擎中的选择算法并不理想。因此,较为理想的算法不能太复杂,而且不同数据库之间的通信能力应不做要求。同时,具有较好的兼容性,尤其不对硬件要求过高。另外,不要求数据库搜索引擎具体采用何种索引方法。   根据抽样理论,随机抽样精度一定程度上决定着总体特征,而且语料中单词的出现偏斜分布。由此可知,抽样时即便未获得大量单词,但抽样技术仍能对数据库加以精准的描述。经过多年的研究,人们提出了基于查询的抽样算法,该算法并不难理解,但是包括较多参数,进一步提高了数据库描述准确程度。   2 文档数据库的选择   文档数据库选择是分布式信息检索面临的又一重要问题,面对海量的数据库,查询过程中如何进行合理的取舍需要依据专门的算法。接下来以判别模型的选择算法为例,对文档数据库的选择进行探讨。   判别模型选择算法,首先给每个数据库构建罗杰斯特回归模型,令相关向量={v1,v2,...,vn},其中当vi=0时表示数据库和用户查询不相关,而当vi=1表示相关。由已知的特征向量,可利用公式1计算出数据库i的相关概率:   (1)   公式中的为特征权重向量。利用公式2对各个数据库向量相关概率进行定义:   (2)   其中z是归一化因子。   但构建的模型并未将数据库之间的关系信息考虑在内,因此,需对模型进一步完善,将数据库之间的相似度考虑在内,完善后的模型为:   (3)   完成算法构思建模工作后,再对算法进行形式化、求解等方面的处理,便可实现分布式信息检索中的文档数据库选择。   3 查询结果的合并   当用户将查询送往数据库中,数据库会根据查询条件返回一个文档列表,期间需对文档列表进行合并处理。对查询结果的合并处理应需依赖一定的算法实现,如CORI合并算法、SSL算法以及SAFE算法,其中SAFE算法重点考虑了搜索代理与不同数据库之间的通信,一定程度上脱离了重合文档数量的限制,较SSL算法相对完善。   SAFE合并算法的实现涉及三个过程:结合用户查询,抽样数据库排序各个文档;在每个数据库中结合抽样文档在原数据库的局部得分,以及抽样数据库的全局的得分进行回归模型的训练,并利用模型计算各返回文档的全局分数;合并排序返回文档的全局得分。尽管这三个过程和SSL算法较为相近,但其训练模型重合文档数量很少,为解决这一问题,SAFE算法给出了两个假设:   (1)对一个原数据库而言,当返回的文

文档评论(0)

langhua2016 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档