分布式信息检索中的重要问题探讨.docVIP

下载本文档

11
0
约2.67千字
约 2页
2016-07-03 发布于河北
举报
版权申诉

分布式信息检索中的重要问题探讨.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

分布式信息检索中的重要问题探讨

分布式信息检索中的重要问题探讨　　摘要分布式信息检索是信息检索中的重要组成部分，一定条件下较传统检索搜索效率高。研究表明，分布式信息检索中面临的主要问题有文档数据库的描述、选择以及如何合并查询结果，本文将逐一进行探讨。　　【关键词】分布式信息检索问题探讨　　分布式信息检索依据查询相关性，选择文档数据库，在其中进行查询，最后将查询后的结果加以合并，反馈给用户。分布式信息检索可对多个文档数据库进行查询，一定程度上提高了检索效率，有关分布式信息检索的研究也因此成为业内人士关注的热点。　　1 文档数据库的描述　　对多个文档进行分布式信息检索时，首先应确定搜索的起始点，因此，对不同文档数据库进行描述显得尤为必要。为使不同数据库中的词频差异充分显现，尽可能的体现出数据库的特征，提高数据库选择的效率，实际工作中，文档数据库描述是自动生成的。但不同文档数据库描述是否能够共享取决于其所处的环境。即，在非协同环境中，文档数据库并直接共享各自的描述，因此，检索时需借助查询抽样技术，下载不同数据库的相关文本，作为各自的描述。在协同环境中不同文档数据库可用的知识较多，并能计算出不同数据库与查询匹配的评分。　　1.1 协同环境中的数据库描述　　协同环境下，文档数据库可将与被索引文档相关的大量信息提供给检索代理。不过这一过程的实现需要STARTS协议支持。在该协议下，检索代理中存储了大量数据库结果合并以及选择的重要信息，包括抽样结果、停用词表、文档评分范围等内容。在STARTS协议中定义的查询语言有排序表达式、过滤器表达式两部分构成。其中排序表达式对文档不同域排序的重要性差异进行相关说明，而过滤器表达式主要为提高检索精度，将搜索范围文档进一步缩小，并可供用户对查询匹配的域进行指定。另外，当数据库内容相差较大时，为进一步提高分布式信息检索质量与效率，可能还需借助其他元信息。　　1.2 非协同环境中的数据库描述　　现实中分布式检索环境多处于非协同环境中，例如，为达到吸引用户的目的，部分数据库可能提供不真实信息。部分数据库为提高安全性，并不提供描述信息。另外，不同数据库描述较为相近时也需要进行认真的探讨，如，有时尽管检索系统建立的索引完全相同，但参数设置哪怕有丝毫的差别，也会导致检索结果出现较大区别，因此，实际检索操作时依赖数据库搜索引擎中的选择算法并不理想。因此，较为理想的算法不能太复杂，而且不同数据库之间的通信能力应不做要求。同时，具有较好的兼容性，尤其不对硬件要求过高。另外，不要求数据库搜索引擎具体采用何种索引方法。　　根据抽样理论，随机抽样精度一定程度上决定着总体特征，而且语料中单词的出现偏斜分布。由此可知，抽样时即便未获得大量单词，但抽样技术仍能对数据库加以精准的描述。经过多年的研究，人们提出了基于查询的抽样算法，该算法并不难理解，但是包括较多参数，进一步提高了数据库描述准确程度。　　2 文档数据库的选择　　文档数据库选择是分布式信息检索面临的又一重要问题，面对海量的数据库，查询过程中如何进行合理的取舍需要依据专门的算法。接下来以判别模型的选择算法为例，对文档数据库的选择进行探讨。　　判别模型选择算法，首先给每个数据库构建罗杰斯特回归模型，令相关向量={v1，v2，...，vn}，其中当vi=0时表示数据库和用户查询不相关，而当vi=1表示相关。由已知的特征向量，可利用公式1计算出数据库i的相关概率：　　（1）　　公式中的为特征权重向量。利用公式2对各个数据库向量相关概率进行定义：　　（2）　　其中z是归一化因子。　　但构建的模型并未将数据库之间的关系信息考虑在内，因此，需对模型进一步完善，将数据库之间的相似度考虑在内，完善后的模型为：　　（3）　　完成算法构思建模工作后，再对算法进行形式化、求解等方面的处理，便可实现分布式信息检索中的文档数据库选择。　　3 查询结果的合并　　当用户将查询送往数据库中，数据库会根据查询条件返回一个文档列表，期间需对文档列表进行合并处理。对查询结果的合并处理应需依赖一定的算法实现，如CORI合并算法、SSL算法以及SAFE算法，其中SAFE算法重点考虑了搜索代理与不同数据库之间的通信，一定程度上脱离了重合文档数量的限制，较SSL算法相对完善。　　SAFE合并算法的实现涉及三个过程：结合用户查询，抽样数据库排序各个文档；在每个数据库中结合抽样文档在原数据库的局部得分，以及抽样数据库的全局的得分进行回归模型的训练，并利用模型计算各返回文档的全局分数；合并排序返回文档的全局得分。尽管这三个过程和SSL算法较为相近，但其训练模型重合文档数量很少，为解决这一问题，SAFE算法给出了两个假设：　　（1）对一个原数据库而言，当返回的文