- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
. : Digi~lLibrlt~iForum-^ ●。!
DL ’数字圈书馆1_ErI石
http://www.dlf.net.cn
分布式学术搜索引擎研制及其大数据应用
口 吴广印 /中国科学技术信息研究所 北京 100038
摘要:受 搜“索引擎”流行的影响,目前大家已经习惯把图书情报领域使用的 情“报检索系统”称之为 “学
术搜索引擎”。无论从技术层面上还是应用层面上,尽管二者有很大的共同点,但也有很大差异。传统的集中
式的搜索引擎已经无法满足飞速发展的信息爆炸和普及化的海量需求用户,能够提供 “云服务”的分布式搜索
引擎已经成为必然。文章主要内容包括学术搜索引擎涉及的关键技术、分布式搜索引擎的架构,以及分布式搜
索引擎在大数据领域的主要应用价值三个方面,最后给出了分布式搜索引擎RMSCIoud的典型应用介绍。
关键词:学术搜索引擎,分布式检索,大数据应用,云服务,RMSCloud
DOI:10.3772j/.issn.1673--2286.2013.06.003
1前言 技术能够提供全方位一体化的在线 索系统”一词几乎被人们淡忘了,被
服务功能1【]。情报检索系统的核心是 “学术搜索引擎”所替代。所以本
情报检索系统 (information “检索”(retrieva1),它不同于目前 文也以 “学术搜索引擎”为题,去探
retrievalsystems)是对情报资料 搜索引擎中的 “搜索”(search)。目 讨我们业 内 “情报检索系统”的相
进行收集、编辑、管理和检索的系 前通用的搜索引擎,以Google、百度 关核心技术和应用。
统。现代情报检索系统是由电子计 为代表,实际上仅提供了以文本全
算机、通信网络和终端设备等组成 文检索 (字符串匹配)为主的Search 2学术搜索引擎的关键
的自动化系统,可进行情报资料的 功能和一些简单的智能扩展服务。情 技术研究
收集、标引、分析、组织、存储、检 报检索系统的主要考核指标是 “查
索和传播等工作。计算机情报检索 全/查准率”,应该能够在浩瀚的文 从存储在不同类型的数据库
可分为数据检索、文献检索、图谱 献海洋中,快速准确地 “捞针”。现 中去发现满足 自己所需数据称之
检索、事件检索等类型。传统计算 在,几乎所有的互联网用户每天都在 为 “数据搜索”,数据可 以存储在
机情报检索的服务方式又可分为三 使用搜索引擎去上网搜索网上的信 各类数据库中,其中包括关系数据
类:①定题情报服务。它是针对相对 息,搜索的结果大家只能再次在近 库、非结构化数据库以及近几年流
固定的用户提 出的要求,定期对新 似海量数据里去做人工选择。另外 行起来的NoSQL数据库 (Notonly
到文档进行检索,及时向用户提供 网上搜索引擎的搜索主要对象是网 SQL)[2】。科技文献类数据库由于其
所需信息。②回溯情报检索。它是根 页,很难评价其真实性,但突出的优 自身特点,比如变长、多值、字段数
据用户的要求,对过去某段时间内 点是信息获取及时。情报检索系统的 量变化等特点,通常使用非结构化
积累收藏的全部文献,进行主题检 检索对象是文献,基本上都是正规 数据库来管理。因此,搜索引擎不
索,一般采用脱机批处理方式。⑧ 的出版物信息,是经过专家或权威机 同于专业数据库管理系统,它只是
联机情报检索。它采用人机对话的 构评审过的内容,可直接参考引用。 构架在数据库管理系统之上的搜索
方式,用户在计算机终端上经过通 近几年Google和百度也相继推出了 功能模块 (搜索引擎通常也提供简
信线路直接与计算机对话,能在短 “GoogleScholar”、“百度文库” 单的数据管理功能),因此本文讨
时间内获
文档评论(0)