- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分布式信息检索0.0
分布式信息检索 信科12-1 刘斌 目录 2. 分布式信息检索 利用分布式计算进行信息检索称为分布式检索。 在分布式环境中,利用分布式计算技术从大量异构的的信息资源中检索出多用户有用的信息的过程。 分布是环境是指信息资源在物理上分布于各地,但逻辑上是一个整体。 分布式检索主要特点是:一、分布式检索通常处理的是地理位置分散的异构数据,不同地理位置计算机系统间通讯的开销比较大,因此,分布式检索中应该尽量避免不同地理位置计算机系统之间的通讯操作。二、分布式检索的数据规模相对较大,每个节点的处理能力又不尽相同,因此,分布式检索通常只选择某些数据子集进行检索,而不是像并行检索那样,需要返回每个数据子集的结果。三、分布式检索的对象的异构性使得统一描述和访问成为必须要考虑的问题。 分布式信息检索系统结构 一个具体的查询过程可以描述如下 :用户从客户端发出查询, 经过分发服务器对用户的查询进行集合选择 ,选择最适合的数据集合进行检索 ,用户的查询请求被发送到相应的检索服务器上进行并发查询,查询的结果再经过结果合并过程 ,把最终的检索结果返回给用户,从而完成一次分布式检索的过程 。 在分布式信息检索的构建中 ,首先要处理的就是文档集合的划分问题, 在以往的研究中文档集合的划分常常按照信息的来源、 信息的发布时间等信息 ,将一个大的文档集合划分成几个文档集合 ,这种划分方法并不能使一个查询的答案集中在某几个文档集合中 ,按照主题对文档集合进行划分 ,从而使查询答案集中在少数文档集合中 提高分布式信息检索的效果。 体系结构 检索效果就是利用检索系统进行检索服务时所获得的有效结果包括技术效果和经济效果。技术效果是由检索系统完成其功能的能力确定主要指系统的性能和服务质量;经济效果是由完成这些功能的价值确定,主要指检索系统服务的时间和成本。 评价信息检索系统的三个重要指标是: 一、 检索查全率 二、检索查准率 三、响应时间。 一、查全率指的是检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索出来。查全率=检出相关文献量/文献库内相关文献总量*100% 二、查准率:指的是检出的相关文档与检出的文献总量的比率,是衡量信息检索系统检出文献准确度的尺度。查准率=检出的相关文献篇数/检索出的全部文献篇数*100% 三、响应时间:检索系统的响应时间是指从发出检索提问到获得检索结果平均消耗的时间。主要包括:1.用户请求到服务器的传送时间;2.服务器处理请求的时间;3.服务器的答复到用户端的时间;4.用户端计算机处理服务器传来信息的时间 分布式信息检索的过程 从用户处接受查询; 把用户查询翻译成检索提问表达式; 确定与提问式相关的数据集; 利用提问式对数据集进行检索; 收集相应的检索结果; 对检索结果进行整理; 将整理结果返回给用户。 分布式信息检索优点 1.可以对大数据量进行检索,突破了计算机容量的限制。 2.提高了检索的速度。 3.降低由于机器失败,造成对服务的影响。 4.在网络信息检索领域分布式信息检索克服了集中式信息检索负载较大时用户查询响应问题,提供了一中整合不同信息资源,提供集成信息服务的可能。 展望未来 分布式检索技术还属于起步阶段,还有很多工作要做: 1、分布式信息检索面临数据源异构和检索处理器异构的问题。 2、如何充分挖掘并行计算和分布式计算的能力,需要信息检索领域的研究者和分布式并行计算领域的学者共同商讨,从而使得分布式技术进一步发展 3、如何度量分布式检索的性能是一个挑战。 4、互联网上的异构数据对分布式检索结果的合并和访问标准化提出可很高要求。 The end,thank you! * * 分布式信息检索的结构 分布式信息检索方法的过程 分布式信息检索的优点 分布式信息检索的概念 检索步骤 说明 文档集合划分 将大型文档集合划分成若干文档子集,然后将文档子集分配给相应的索引服务器。 信息集合选择 对于特定的检索请求,从全部的文档集合中选出与之最相关的文档子集,在不影响检索查全率的前提下,尽可能的减少要搜索的索引服务器数量。 单文档集合检索 对检索子集对应的索引服务器进行单集合检索。 查询结果集合并 将每个检索子集对应的索引服务器返回的检索结果整合成一个检索结果列表。 *
您可能关注的文档
- 汉寿县职业中专二0一0年招生动员大会报告.doc
- 第1代方法时间衡量MTM1.doc
- 导数选择题0(0.85).doc
- 校园评价系统-用户手册版本_V0.0.1.doc
- Java8 Lambda表达式.doc
- 2017中考学科复习-书面表达.docx
- SQL字符串操作.docx
- 一至五年级 重点短语、词组及常用表达方式2.doc
- 如何用英语表达离职与应聘原因——让你的英语high起来.doc
- RAD上机课5.doc
- 功能设计_MM_MM015_报废单_20080109_v2.0.doc
- 功能设计_MM_MM021_采购订单批导入程序_20080108_v1.0.doc
- 功能设计_MM_MM020_出库单_20071205_v2.1.doc
- 功能设计_MM_MM019_入库单_20071205_v2.1.doc
- 功能设计_MM_MM018_领料单_20080114_v2.0.doc
- 功能设计_MM_MM016_ERP与招投标系统接口_20080327_v1.2.doc
- 功能设计_MM_MM014_退库单_20080109_v1.0.doc
- 功能设计_MM_MM013_物料盘点清单_20080114_v2.0.doc
- 中考数学知识点10 一元一次不等式(组)(2).pdf
- 七年级数学优质课公开课教案教学设计期中综合检测.pdf
文档评论(0)