数据网格中信息服务技术研究与实现.docVIP

数据网格中信息服务技术研究与实现.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据网格中信息服务技术研究与实现

数据网格中信息服务技术研究与实现   摘要:针对传统数据网格信息服务的不足之处,在分析Web搜索引擎技术和基于关键词的数据库索引技术基础之上,结合这两种信息获取技术,设计了数据网格中结构化数据资源发现技术的体系结构。在科学数据网格信息服务系统中,利用开源Lucene全文检索软件包,实现了结构化数据资源发现的关键技术。   关键词:网格信息服务;Web搜索引擎;关键词查询;资源发现   中图分类号:TP393文献标志码:A   文章编号:1001-3695(2007)07-0246-03      0引言??      网格技术开始于计算网格,现在大多数网格中间件的信息服务均以计算资源为中心,其信息服务的数据格式设计也都紧紧围绕着如何有效地描述计算资源这一核心进行。科学数据网格是一种数据网格,其目标是实现数据资源的有效共享和分布处理,其信息服务主要是为用户提供便捷的信息获取方式,??速定位到用户感兴趣的数据资源,并以有效的方式组织和显示用户感兴趣的数据资源。计算网格信息服务中间件不能满足科学数据网格信息服务的需求。??   传统的数据网格信息服务主要通过管理元数据来提供目录式的信息服务。元数据中包含的信息量有限,目录式信息服务很难准确、全面地返回用户感兴趣的数据资源信息。描述数据资源的元数据信息很大程度上也需要数据库管理人员介入编写,很不方便。随着元数据信息的增加,管理元数据信息的集中式目录信息服务系统的性能也将急剧下降。因此,考虑采用新的技术和方法来研究数据网格信息服务系统。??   本文主要在分析研究Web搜索引擎技术和基于关键词的关系数据库索引技术的基础上,结合这两种信息获取技术,设计一种适合于数据网格中结构化数据资源的关键词检索发现的技术体系,使其能够在科学数据网格这种分布式环境中有效地发现和组织关系数据库中的结构化数据资源。??      1相关技术??      1.1Web搜索引擎技术??   作为当前最主要的互联网信息获取方式,Web搜索引擎可以让用户通过关键词在浩瀚的网络海洋中快速地找到自己感兴趣的信息。一般搜索引擎结构如图1所示。??   一般搜索引擎主要由采集器、索引器、检索器、用户接口以及文档库和倒排索引库组成。采集器又称为网络蜘蛛,主要通过HTTP协议遍历互联网,抓取网页,并将网页保存到文档库中;索引器对文档库中的HTML文档进行分词、过滤等分析后,建立倒排索引,并将倒排索引文件保存到索引库中;检索器主要从索引库中找出与用户查询请求相关的文档集合;用户接口为用户提供可视化的查询输入和结果输出界面。??      1.2基于关键词的数据库索引技术??   SQL语言是存取关系数据库中数据的主要界面。但是,对普通用户来说,SQL语言既难学习,又难使用。而且,用户在用SQL语句查询关系数据库时,必须知道数据库中数据的Schema。基于关键词的数据库检索系统,使用户无须任何SQL语言和数据库Schema的知识,能够像使用百度、Google那样通过提交关键词来获取数据库中的相关数据。以EKSO系统为例来进行分析。如图2所示,EKSO系统由数据库采集器、索引器和查询请求处理器组成。采集器在遍历数据库时,引入了文本对象来组织数据库中相互关联的关系表中的元组,并将文本对象中所有元组的文本属性值连接起来形成虚拟文档。索引器通过处理虚拟文档,对所有的虚拟文档建立索引,将虚拟文档中的关键词与相应的文本对象键值联系起来。查询请求处理器与搜索引擎中的检索器功能相似,主要负责处理用户的关键词查询请求,并返回根据相关度排好序的结果。不同的是查询请求处理器直接返回文本对象键值给用户,让用户自己通过文本对象键值从数据库中获取相关的数据。??      1.3开源Lucene??   Lucene是一个非常成功的开放源代码的全文检索引擎工具包,提供了完整的全文检索引擎架构,以方便软件开发人员在目标系统中实现全文检索引擎。分析Lucene源码结构,借鉴其设计和实现思路,利用并扩展其工具包来实现科学数据网格的信息服务系统。??   如图3所示,Lucene由基础结构封装、索引核心、对外接口三大部分组成。基础结构封装是整个系统结构的基石,主要定义了常用的数据结构、算法和索引数据结构中的概念类;索引核心直接操作索引文件,是系统结构的重点,主要是对索引文件操作和操作实现的封装;对外接口是在索引核心基础之上,对查询操作和基于目标系统的分词等操作的封装。??      2结构化数据资源发现技术体系结构的设计??      2.1结构化数据资源发现技术框架??   科学数据网格中包含大量分布的结构化数据资源,为了有效地共享这些海量的结构化数据资源,迫切需要基于这些数据内容的检索引擎,以方便科研工作

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档