基于网格的面向专业内容的Web信息检索体系结构201336392440394.docVIP

下载本文档

5
0
约3.97千字
约 4页
2017-09-03 发布于湖北
举报
版权申诉

基于网格的面向专业内容的Web信息检索体系结构201336392440394.doc

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于网格的面向专业内容的Web信息检索体系结构1、引言　　近年来，互联网得到了迅速的发展，网上信息资源愈来愈庞大，且信息具有量大、分散、异构等特性，因此，传统的Web信息检索工具开始暴露出它性能低下的一面，具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录，根本无法从中再细找，或者找到的内容和要找的内容不是一个专业领域的，造成信息无效的现象。但随着人们信息意识的增强，对信息内容及信息服务的需求也在不断的演变和发展，对获取信息的专业化、实效性等方面有了新的要求。如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务，使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构，它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理，为用户快速、有效地获取自己所需要的信息提供了一种方法。　　2、基于网格的面向专业内容的Web信息检索体系结构的设计 ????网格计算是近年来国际上兴起的一种重要信息技术，其目的是将网上各种资源组织在一个统一的大框架下，为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台，实现互联网上所有资源的全面连通，实现信息资源的全面共享。 ????为解决不同领域复杂科学计算与海量信息服务问题，人们以网络互连为基础构造了不同的网格，他们在体系结构，要解决的问题类型等方面各不相同，但网格计算至少需要具有三种基本功能：资源管理、任务管理、任务调度。本文设计的信息检索体系结构，围绕网格计算的基本功能及信息检索的特点，主要有以下三个层次组成：见图1 　　（1）　网格结点：结点是网格计算资源的提供者，本系统主要是由一系列的集群系统组成，它们在地理位置上是分布的，构成了一个分布检索群体，作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理，维护和查询。? 　　（2）　网格计算中间件：中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分，它根据用户的信息请求任务，在整个网格内负责信息资源的匹配、定位，实现用户任务到集群系统的映射。　　（3）　网格用户层：主要为用户应用提供接口，支持用户对所需要的信息资源进行描述、创建、提交等。　　本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统，集群系统对集群内的资源进行管理和任务调度，再利用网格中间件对各集群系统进行管理，从而形成对整个网格资源的管理，并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略，又可利用中间件在全局意义上对网格信息资源进行管理。　　2.1??集群系统的设计　　由于Web信息资源数量十分庞大，用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题，往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体，并使其从客户端看来就如同一台服务器在服务，这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。因此本文首先考虑采用分布协作策略，将Web信息资源按地区按专业内容分割，一方面使信息资源数量相对缩小，便于数据的组织、管理和维护，另一方面按专业内容易于制定一个公用的XML规范，便于集群内各类信息资源的描述，从而可建立一个基于XML的面向专业内容的信息集成系统。集群系统的具体结构见图2。　　集群服务器主要由接口Agent，基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务，并提供安全认证和授权。资源服务Agent根据信息资源请求任务，利用XML信息集成系统提供的数据，为用户提供实际的资源检索操作，并将检索结果信息发送给用户。资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。　　下面主要说明基于专业内容的XML信息集成系统的构造方法：　　XML（the?eXtensible?Markup?Language）是?W3C于1998年宣布作为Internet上数据表示和数据交换的新标准，它是一种可以对信息进行自我描述的语言，它允许开发人员通过创建格式文件DTD（Document?Type?Definitions）定制标记来描述自己的数据，DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。?XML使用普通文本，因此具有跨平台的优点，XML的优点在于　　（1）简单、规范性：XML文档基于