- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于元数据数据交换系统研究
基于元数据数据交换系统研究
摘要:数据交换系统是服务数据交换需求的重要工具。在分析数据交换过程的基础上,提炼了异构数据交换的元数据模型,并以这些元数据模型为基础,设计实现了基于元数据的数据交换系统,大大提高了系统的适应性、灵活性、通用性和可扩展性,为大规模数据迁移和数据集成提供了基础支撑。
关键词关键词:元数据;数据交换;异构数据
DOIDOI:10.11907/rjdk.161328
中图分类号:TP392文献标识码:A文章编号文章编号2016)007015803
0引言
随着信息技术的发展,业务领域的变化频率越来越高,业务流程再造的速度越来越快,数据模型不断升级,导致数据迁移需求不断增加,跨部门业务融合也导致数据交换的需求持续增加。因此,建设一个数据交换平台迫在眉睫。该平台不仅可以提供点到点的系统间数据交换,还能实现点到面的跨部门、跨业务的数据集成,对整体数据资产提供有力支撑。
目前,主流的数据库产品大多提供了数据迁移工具,但这些工具一般只适用于数据的导入、导出,并且只能支持一个或几个特定类型的数据库。现在的问题是用户使用的数据库产品种类众多,比如格式化的数据库有Oracle、SQL Server、DB2、MySQL、Access、Sqlite、达梦、金仓等;半结构化的数据格式有xls、csv、json、xml等;NoSQL类型的数据库有MongoDB、Redis、 HBase等。无论是数据迁移还是数据集成,均需要在它们之间交换共享数据。如果工具只支持一对一的数据转换,就可能需要开发、维护、学习使用一批这样的工具。因此一个通用的数据交换系统是实现数据迁移和数据集成重要的基础工具。
1数据交换过程
一个典型的数据交换过程包括以下几个步骤:数据抽取、数据转换、数据加载,为了顺利实现数据交换,还需要对以上几个过程加以控制,这就是人们常说的ETL(Extract Transform Load),这里加上了控制(Control),简称为ETLC,如图1所示。
数据抽取,就是从数据源中获取数据。进行数据抽取是进行数据交换的首要步骤,它是指从异构的数据源中获取需要的数据。这里的异构数据源既包括传统的结构化数据库(支持SQL标准)、半结构化数据文件(如XML文件、JSON文件、XLS文件等),还包括不断涌现的NoSQL数据库(如:MongoDB、Memcached、HBase等)。建立一个通用的数据访问接口是获取不同数据源数据的关键。
数据转换,就是根据目标数据源的要求转换数据,实现异构数据源之间的数据转换是进行数据交换的重点。完成从异构数据库中提取数据之后,为了满足目标数据库对数据的要求,需要对其进行相应的转换。建立一系列数据转换规则是满足不同数据转换要求的关键。
数据加载,就是将数据加载到目标数据源。进行数据加载是达成数据交换目标的最后一环,它需要按照事先制定的加载策略,将经过转换的、符合要求的数据有针对性地加载到目标数据库中。
过程控制,就是启动、记录数据抽取过程。对数据交换过程进行控制是数据交换的有效保障。针对不同的数据交换需求,应能够自动地启动交换任务,收集、记录交换过程中的日志和异常信息,为掌握交换事务,及时发现和处理各种异常提供支撑。
2数据交换元数据
通过对数据交换过程的分析可以看出,进行数据交换的基础是对数据源及其映射关系进行描述,数据交换过程需要对数据抽取、数据转换、数据加载、过程控制进行描述。元数据是对数据资源的规范化描述,对于数据交换过程中涉及到的数据源以及交换行为,可以抽象为以下几类元数据。
2.1数据源描述元数据
数据交换实质就是数据从一个数据源通过抽取、转换、加载到另一个数据源,因此,数据交换的基础就是要对数据源进行详尽描述。
数据源按其类型不同,可概括为结构化数据库、半结构化数据文件、NoSQL数据库。无论何种类型的数据源,在进行数据交换时,首先都要知道如何访问,这就需要描述数据源所属的数据库类型、数据库版本、数据库名称、数据库的URL、访问数据库的用户名与密码等信息。
数据库逻辑上是由数据表组成,在进行数据交换时,要知道需要交换的数据在哪张表里,因此需要描述数据表信息,包括表的名称、表的语义描述、表所属的数据库等。
数据表是由一系列字段构成的,在进行数据交换时,最小的粒度是数据从源端的某张表的一个字段至目标端一张表的某个字段,因此对表字段的描述至关重要。字段的描述信息包括:字段的名称、字段的语义描述、字段所属的数据表、字段类型、字段的约束信息等。
通过以上分析,对数据源的描述可以归纳为三元组,记为D(Db,Dt,Df),其中Db为数据库描述信息,Dt为数据表的
文档评论(0)