- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分布式信息检索中的重要问题探讨
分布式信息检索中的重要问题探讨
摘 要 分布式信息检索是信息检索中的重要组成部分,一定条件下较传统检索搜索效率高。研究表明,分布式信息检索中面临的主要问题有文档数据库的描述、选择以及如何合并查询结果,本文将逐一进行探讨。
【关键词】分布式信息检索 问题 探讨
分布式信息检索依据查询相关性,选择文档数据库,在其中进行查询,最后将查询后的结果加以合并,反馈给用户。分布式信息检索可对多个文档数据库进行查询,一定程度上提高了检索效率,有关分布式信息检索的研究也因此成为业内人士关注的热点。
1 文档数据库的描述
对多个文档进行分布式信息检索时,首先应确定搜索的起始点,因此,对不同文档数据库进行描述显得尤为必要。为使不同数据库中的词频差异充分显现,尽可能的体现出数据库的特征,提高数据库选择的效率,实际工作中,文档数据库描述是自动生成的。但不同文档数据库描述是否能够共享取决于其所处的环境。即,在非协同环境中,文档数据库并直接共享各自的描述,因此,检索时需借助查询抽样技术,下载不同数据库的相关文本,作为各自的描述。在协同环境中不同文档数据库可用的知识较多,并能计算出不同数据库与查询匹配的评分。
1.1 协同环境中的数据库描述
协同环境下,文档数据库可将与被索引文档相关的大量信息提供给检索代理。不过这一过程的实现需要STARTS协议支持。在该协议下,检索代理中存储了大量数据库结果合并以及选择的重要信息,包括抽样结果、停用词表、文档评分范围等内容。在STARTS协议中定义的查询语言有排序表达式、过滤器表达式两部分构成。其中排序表达式对文档不同域排序的重要性差异进行相关说明,而过滤器表达式主要为提高检索精度,将搜索范围文档进一步缩小,并可供用户对查询匹配的域进行指定。另外,当数据库内容相差较大时,为进一步提高分布式信息检索质量与效率,可能还需借助其他元信息。
1.2 非协同环境中的数据库描述
现实中分布式检索环境多处于非协同环境中,例如,为达到吸引用户的目的,部分数据库可能提供不真实信息。部分数据库为提高安全性,并不提供描述信息。另外,不同数据库描述较为相近时也需要进行认真的探讨,如,有时尽管检索系统建立的索引完全相同,但参数设置哪怕有丝毫的差别,也会导致检索结果出现较大区别,因此,实际检索操作时依赖数据库搜索引擎中的选择算法并不理想。因此,较为理想的算法不能太复杂,而且不同数据库之间的通信能力应不做要求。同时,具有较好的兼容性,尤其不对硬件要求过高。另外,不要求数据库搜索引擎具体采用何种索引方法。
根据抽样理论,随机抽样精度一定程度上决定着总体特征,而且语料中单词的出现偏斜分布。由此可知,抽样时即便未获得大量单词,但抽样技术仍能对数据库加以精准的描述。经过多年的研究,人们提出了基于查询的抽样算法,该算法并不难理解,但是包括较多参数,进一步提高了数据库描述准确程度。
2 文档数据库的选择
文档数据库选择是分布式信息检索面临的又一重要问题,面对海量的数据库,查询过程中如何进行合理的取舍需要依据专门的算法。接下来以判别模型的选择算法为例,对文档数据库的选择进行探讨。
判别模型选择算法,首先给每个数据库构建罗杰斯特回归模型,令相关向量={v1,v2,...,vn},其中当vi=0时表示数据库和用户查询不相关,而当vi=1表示相关。由已知的特征向量,可利用公式1计算出数据库i的相关概率:
(1)
公式中的为特征权重向量。利用公式2对各个数据库向量相关概率进行定义:
(2)
其中z是归一化因子。
但构建的模型并未将数据库之间的关系信息考虑在内,因此,需对模型进一步完善,将数据库之间的相似度考虑在内,完善后的模型为:
(3)
完成算法构思建模工作后,再对算法进行形式化、求解等方面的处理,便可实现分布式信息检索中的文档数据库选择。
3 查询结果的合并
当用户将查询送往数据库中,数据库会根据查询条件返回一个文档列表,期间需对文档列表进行合并处理。对查询结果的合并处理应需依赖一定的算法实现,如CORI合并算法、SSL算法以及SAFE算法,其中SAFE算法重点考虑了搜索代理与不同数据库之间的通信,一定程度上脱离了重合文档数量的限制,较SSL算法相对完善。
SAFE合并算法的实现涉及三个过程:结合用户查询,抽样数据库排序各个文档;在每个数据库中结合抽样文档在原数据库的局部得分,以及抽样数据库的全局的得分进行回归模型的训练,并利用模型计算各返回文档的全局分数;合并排序返回文档的全局得分。尽管这三个过程和SSL算法较为相近,但其训练模型重合文档数量很少,为解决这一问题,SAFE算法给出了两个假设:
(1)对一个原数据库而言,当返回的文
您可能关注的文档
最近下载
- 土地管理法培训课件.pptx VIP
- 2022年北京理工大学计算机科学与技术专业《数据结构与算法》科目期末试卷A(有答案).docx VIP
- 2022年北京理工大学计算机科学与技术专业《数据结构与算法》科目期末试卷B(有答案).docx VIP
- 物理学史全套课件-物理学史.ppt VIP
- 2023年北京理工大学软件工程专业《数据结构与算法》科目期末试卷A(有答案).docx VIP
- 《兔子坡》小学生阅读分享课PPT课件.pptx VIP
- 2025年国家金融监督管理总局考试财经岗考试试题(附答案).docx VIP
- 中国古建筑课件PPT.pptx VIP
- 尽职调查清单---模板.pdf VIP
- 从造词心理看民族文化程度.pptx VIP
文档评论(0)