- 7
- 0
- 约5.95千字
- 约 5页
- 2019-07-03 发布于广东
- 举报
随着社会信息化程度的不断提高,很多系统面临从 人规模数据集屮快速检索信息的需求。传统的基于单机 的集中式信息检索技术已无法满足这种以大规模数据集 为基础的并发多用户信息检索的需求。利用高速网络坏 境,开发分布式并行信息检索系统,使多台低端服务器或 PC机协同工作,共同承担信息检索任务,不失为一种既 经济又高效的解决方案[1, 2 ] o本文以基础教育资源搜索
引擎(Basic Educational Res ources Search Engine, BERSE) 系统为例,探讨分布式并行信息检索系统的设计与实现 技术。
系统模型与主要算法
1 . 1 设计思想
BERSE是南京师范大学教育科学学院设计开发的一 个面向棊础教育领域的专业搜索引擎,该系统中涉及的 数据最庞人,数据变化频繁,用户对系统的响应时间要求 较高。为了能实现信息的快速检索,同时乂不用大规模 地增加系统成本,笔者选择了基于低端服务器或PC机群 的分布式并行信息检索系统设计方案[3 ]
O
分布式并行信息检索系统是分布式并行计算技术在 信息检索领域的应用,是计算机技术与网络通讯技术的 有机结合,它将分散的计算机资源统一整合,以发挥集群 优势为目标,实现高速网络环境下的快速信息检索。在 大规模数据检索中,并行处理具有较人的潜力可以挖掘, 利用分布式系统,可以实现多条查询Z间的并行检索以 及单条查询内部的并行处理,由此捉高整个系统的效 率[1,2,4]
O
为此,在BERSE中,南京师范大学教育科学学院将 海量数据域进行分段,然后分布在多个查询节点上;对于 复杂的查询进行合理分解,以便在不同的数据段上并行 检索;对来自多个查询节点的查询结果通过合并处理最 后反馈给用八。同时,还需考虑当网页采集量发牛?较大 变化时,系统能够快速灵活地对数据域重新分段,必要时 能够方便地扩充新的查询节点。
1 . 2 检索模型
当前,并行计算结构主要分为完全共享结构(Shared Everything, SE )^ 共享主存储器结构(Shared Memory,
S M)、共亨磁盘结构(Shared Disk, SD)和无共亨资源结构 (Shared Nothing, SN)等4种,其中,SN结构被公认为是支 持并行信息检索较好的结构,它貝有资源竞争干扰最小、 高扩充性等优势[4,5]
O分布式并行信息检索系统是一种 典型的SN结构,它通过杏询代理(Query Agent,QA)收集 用八的检索请求,然后将查询任务分配到多个搜索器 (Searcher)并行完成查询任务。
在BERSE屮,检索功能分为前台服务了系统和示台 数据检索子系统两部分。前台服务子系统承担查询代 理,它响应用户的信息检索请求;后台处理子系统承担具 体的检索任务,由文档服务器(Document Server, DS)^索 引服务器(Index Server, IS)和若干査询节点(QueryNode, QN)构成,它们通过T?兆交换机组成高速局域网,如图1 所示:
系统的工作流程为:初始化吋,各个QN根据数据域 的分段信息,从IS中读取属于自己的数据段并完成数据 的分布;QA收到查询请求时,将查询任务分解为多个子 查询,并进行形式化处理,然后向QN分配任务;QN收到 查询任务后实施查询,并将查询结果回送给QA;QA对查 询结果进行排序,并选取前面若干条记录,根据文档编号 (Doc I D)从DS中提取文档,最后牛成检索页血反馈给用 户,至此完成一次查询任务。
1 . 3 主要算法
数据域的划分
在分布式并行检索系统中,数据域的划分关系到系统的 查询性能、扩展性及易维护性等。目前,数据划分方法主要有 两大类:一维数据划分和多维数据划分。其中,一维数据划分 是根据数据的某个属性的值来划分整个数据,这种方法简单 明确,容易实现。一维数据划分方法主要有Round - Robin划 分法、Hash划分法、Rang划分法和Hybrid - Rang划分法等4 种[4,6] o本文参考了 Hybrid?Rang并结合BERSE系统的特 点,用“伦转”算法实现了数据域的划分。
在BERSE中,标引数据被集中存放在IS中,其词条编号 (Term ID)对应于诃典(Lexicon)中的词条编号,诃典屮同吋包 含QN编号(Node ID),如图2所示。数据域的划分是通过对 词典屮的Node ID写标记来实现的。数据标记后,QN初始化 时在词典中查找各自的Node ID,然后根据对应关系从IS中读 取数据,并转存在本机,从而完成数据段的分布。这样设计的 优点有:如果需要对数据段重新调整,只需根据算法改写词典 中的Node ID字段,并通知相关QN重新初始化即可快速 完成。
Lexicon
Term I D Ter m Node I D
您可能关注的文档
最近下载
- ISO∕IEC 42001-2023人工智能管理体系之2:“4 组织环境-4.2 理解相关方的需求和期望”解读、实施流程和风险描述(雷泽佳编制-2024).pdf VIP
- 节假日加班安全管理规定.docx VIP
- 第四章船体结构节点图.ppt.ppt VIP
- 社区卫生服务站(诊所)门诊病历(A4打印版).docx VIP
- 船体结构节点图.pptx VIP
- 预包装食品标签通则.pdf VIP
- 船体结构第一节船用钢材及连接方法略第二节船体结构第三节船体.ppt VIP
- 餐饮企业餐厅开业筹备推进表.xls VIP
- ISO∕IEC 42001-2023人工智能管理体系之1:“4 组织环境-4.1 理解组织及其环境”解读、实施流程和风险描述(雷泽佳编制-2024).pdf VIP
- 电路(一)试题 - 上海大学.doc VIP
原创力文档

文档评论(0)