基于XML异构数据库中数据迁移技术的研究.docx

基于XML异构数据库中数据迁移技术的研究.docx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

基于XML异构数据库中数据迁移技术的研究

?

?

黄晓川杨晓鹏黄琛

【摘要】本文详细研究分析了传统三大经典数据集成体系结构,通过对比其优缺点,提出了一个基于XML技术的数据迁移中间件模型,并讨论了基于该模型的关键技术实现策略。

【关键词】XML;异构数据库;数据迁移

0研究背景及意义

随着我国信息化程度的高速发展,各种教育考试系统如雨后春笋般的层出不穷。全国各个省市出现大量成招、高招、自考、会考等各种不同类型的考试系统。不同的教育考试系统采用不同的开发工具、不同的网络环境、不同的数据库管理系统等进行开发。教育考试系统所存储的大量信息也大多数采用了不同的数据结构和数据类型等[1]。虽然各考试系统积累了大量的考试信息及成绩信息,但各系统都是独立工作,相互间不能够共享资源而形成了一个个“信息孤岛”。同时,这些信息系统的开发年代各有不同,使用的技术工具也各式各样,这就给这些珍贵的教育考试信息的日常维护埋下了重大安全隐患,也给管理人员对其进行数据挖据及分析工作造成了很大障碍。为了能进一步加强对教育考试类信息的安全管理,充分利用并分析这些独立分散的数据,在江西省各教育考试系统之间实现数据共享与数据交换,有必要建立一套完善数据集成交换平台。通过这个平台可以使各教育考试系统之间共享考试信息及成绩信息,给众考生带来极大便利,同时也方便对各考生考试信息及成绩信息进行集中式管理。

1三大经典异构数据集成体系结构分析

1.1数据仓库体系结构

基于传统数据仓库体系结构将来自几个异构数据源的数据副本,按照集中且统一的视图要求,进行预处理、转换,由此来符合数据仓库的模式,然后将其存储到数据仓库中,给用户提供一个透明的统一视图。图1即为数据仓库体系结构示意图。由于数据的集中,使得用户可以通过数据建模、联机分析处理和数据挖掘工具有效利用数据,方便能正确及时的作出决策[2]。

图1数据仓库体系结构示意图

基于数据仓库的数据集成系统结构,其优点是数据高度集中,建立用户端较为方便,有利于对大量集成数据的高效处理。但数据仓库的集成系统面临着初始数据装载和变化后数据的更新问题,如果用戶需要实时数据,那么数据即时更新的效率影响了系统的可用性,数据更新问题成为该方法的最大弊端。

1.2联邦数据库体系结构

联邦数据库系统是虚拟视图法的一种,目的是实现数据库系统间部分数据的共享。联邦数据库系统由一系列独立、自治的数据库系统组成[3],而且各个数据源相互独立。联邦数据库系统主要通过数据库转换和模式转换实现。

1.2.1数据库转换。

在数据库转换中任何一个数据库都通过一定的关系映射生成一个用户数据库的副本,当用户访问数据库时,实际上只是通过用户可以理解的模式来访问源数据库中的数据,也即是说不同的数据源之间使用数据转换接口来实现数据的相互访问,如此一个数据源就可以访问任何其它数据源的信息。图2所示为数据库转换示意图[2]。

图2数据库转换示意图

1.2.2模式转换

模式转换在各数据源之间建立一一映射,然后通过事务翻译到另外的数据源中去执行。若此时有n个异构数据源需要相互连接,则需要构造n×(n-1)个映射程序来支持这n个异构数据源之间的互相访问。因此当参与联邦的数据库很多时,建立映射规则的任务不可行。下面给出了四个异构数据源构造联邦数据库的结构示意图,其中每个数据源都必需和其他三个数据源进行相互映射[2]。

图3模式转换示意图

通过对联邦数据库系统数据库转换和模式转换分析可知联邦数据库系统显然不是一个很好的解决方案。

1.3Wrapper/Mediator中间件体系结构

基于中间件的的数据集成是一种典型的模式集成方法,其主要包括中间件(Mediator)和包装器(Wrapper)[4]。每个数据库都是通过包装器与中间件进行交互的,而中间件则与用户进行交互,并且将用户要求的查询通过包装器从数据源中得到结果。因为中间件结构不存储任何数据,它和数据仓库结构是有本质区别的。图4展示中间件集成多个异构数据源的系统结构,和数据仓库一样,典型的数据集成将会有多个不同的异构数据源[2]。中间件体系结构是目前比较流行的数据集成方法,它通过在中间层提供一个统一的数据逻辑视图来隐藏底层的数据细节,使得用户可以把集成数据源看为一个统一的整体。

图4中间件体系结构示意图

2基于XML的数据迁移模型

利用XML文档作为中间件,可以将源数据库的结构和数据分离出来,生成源数据库的结构文档和数据文档,使数据库的结构和XML文档的结构之间形成映射,同时在数据迁移过程中,根据源数据库的结构文档再现和还原目标数据库,目标数据库生成之后,使用DOM解析器解析读取数据文档中的数据,将其迁移到目标数据库中的过程。以下为基于XML的数据迁移模型示意图[5]。

图5基于XML的数据迁移

文档评论(0)

南江月 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档