数字资源整合的机制与方法学习课件.ppt

  1. 1、本文档共51页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数字资源整合的机制与方法学习课件.ppt

信息资源整合 整合机制 整合技术 整合机制 目前数字资源整合系统的实现机制可以概括为四种 数据仓库整合机制 Mediator/Wrapper整合机制(中介器/封装器整合机制)、 Agent整合机制 P2P整合机制 整合机制-数据仓库整合机制 数据仓库整合机制是一种物理集成方式,它将不同来源的数字资源按特定的方式(通常是按主题或其它多维方式)建模并存储在同一物理位置(称为数据仓库),提供给用户一个新的、统一的目标数据模式(schema),使得用户能够一站式地访问各种数字资源,从而达到整合的目的。 下图概略地示出了数据仓库整合机制的基本原理 数据仓库 数据源 目标模式 从上图中可以看出,数据仓库整合机制的最根本的特点是物理地存放数字资源,对不同来源的数字资源进行集中管理,简化了用户访问信息的复杂度,提高了数字资源的访问速度和整合系统的性能。 而且,由于实现了不同来源的数字资源的一致性存储,这种整合机制还有利于实施比信息检索更复杂、更深入的数据挖掘、知识发现等服务。 采用数据仓库整合机制进行整合的前提是必须能合法地(例如通过授权)获得来源系统中的数字资源,而且,由于是集中存储要整合的数字资源,因而难以适应网络数字资源类型多样、变化快等特点,同时还会增加本地系统存储与维护的负担。 数据仓库整合机制较适用于自建资源。 数据仓库整合机制所涉及的技术主要有: (1)海量数据存储 (2)ETL技术 (3)信息源的监控与更新 (1)海量数据存储 数据仓库的数据来源于多个信息源(即参与整合的系统中的数字资源),因此具有数据量大、类型复杂的特点,属于海量数据。 解决海量数据的存储问题,除了需要相应的专门设备如磁盘阵列、光盘库、磁带库等,还需要精心地设计存储结构和存储算法,既要保证数字资源有合理的物理存储结构,又要保证有较快的存取速度。 (2)ETL技术 ETL技术是对要加以整合的数字资源进行抽取(Extract)、转换(Transform)、清洗(Cleaning)、装载(Loading)的技术。 对不同来源的数字资源进行物理集成,首先需要从参与整合的系统中抽取出相关数字资源,这需要使用信息抽取技术。 由于信息源是异构的,因此,还必须利用转换技术将不同结构的数字资源规范化,消除异构数字资源之间的不一致性,为来自不同系统的数字资源之间的比较、整合以及统一存储奠定基础; 清洗技术主要是解决信息冗余的去重以及错误和不完整信息的修正、剔除问题; 装载技术则是将清洗后的数字资源按一定的规则加载至数据仓库,形成数据仓库的物理存储结构和逻辑存储结构。 (3)信息源的监控与更新 如前所述,数据仓库整合机制是一种物理整合方式,数据仓库本身与信息源在物理上是分离的,因此必须要解决数据仓库与信息源的同步问题。也就是说,必须要监控参与整合的信息源的变化,同步更新数据仓库,确保用户在整合系统中查询到的是各个信息源中的最新数字资源。 整合机制-M/W整合 mediator/wrapper整合机制是一种虚拟整合方式,在基于这种机制的整合系统中,并不真正存储需要整合的数字资源,而是通过mediator和wrapper来实现整合。 mediator和wrapper均为软件组件,位于用户和数据源之间,mediator负责处理用户提问和查询结果的整合,wrapper则负责对信息源的连接和具体查询。 mediator/wrapper整合机制的基本原理如图所示。 中介器(mediator) 分布式资源 分布式资源 分布式资源 封装器(wrapper) 封装器(wrapper) 封装器(wrapper) 提问 全局模式 (Global Schema ) 信息源模式 (Source/Local Schema) 在基于这种机制的整合系统中,用户按全局模式(Global Schema)进行查询,mediator接收用户查询并将其转换成中间格式,然后提交给相应的wrapper,wrapper进一步将中间格式的查询转化为信息源模式或本地模式(Source/Local Schema)的查询,并与参加整合的相应信息源进行连接,实现对相应信息源的查询,将查询结果返回给mediator,mediator对结果进行处理,以统一的形式提供给用户。 与数据仓库整合机制相比,mediator/wrapper整合机制能够有效地保持各个异构信息源的自治性,满足局部的应用,并且能够充分发挥mediator的作用,满足全局性应用。同时,使用这种机制的整合系统不需要在本地储存大量的数字资源,因而能够适应网络环境下信息源高度自治、数量多、更新变化快等特点,而且,在mediator中引入Ontology等语义相关技术后,能够有效解决知识整合、个性化服务等问题。 因而,mediator/wrapper整合机制是目前实现

文档评论(0)

liuxiaoyu99 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档