- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
高校异构数据集成的分析与设计_异构数据库
论文摘要:随着计算机、通信和网络技术的发展,高校在不同时期建立的封闭系统,形成了信息孤岛。数据集成是突破信息孤岛最为有效的方法。因此,本文在对异构数据集成进行研究分析后,再结合高校实际情况,提出了一个基于数据集成工具Oracle Data Integrator(ODI)的数据集成设计方案。
论文关键词:数据集成,异构数据库
0引言
目前很多高校在信息化建设过程中的现状是:一方面由于学校早期的信息化管理缺乏统一的规划和信息标准,各部门管理信息系统在很大程度上是在独立运行,也就是大家通常说的信息孤岛,而且在缺乏总体规划的情况下,应用系统建设的越多,信息孤岛现象就越严重。另一方面,随着学校信息化建设步伐的加快,部门间信息流通的需要会越来越强烈,信息标准化和信息资源的共享及流通问题越来越突出。
具体表现在:第一,学校信息化建设的应用领域不断延伸,已覆盖了全校办公、教学、科研、财务、图书等学校的各项事务。第二,部门信息系统之间的差别,如各部门根据自己的业务需要,建立了各种信息系统。它们之间存在的开发工具不同,操作系统不同等情况;第三,学校的信息资源由于缺乏统一标准和规范而无法实现共享,影响着学校教育信息基本数据的收集、交换和应用。第四,全部重新改造学校各部门管理信息系统和相关工作人员培训的成本太高,周期太长。
综上所述,在学校各部门信息系统已经存在的情况下,在全校范围内需要建立一个统一的信息集成平台对分散在各应用系统中的异构数据进行整合,使校园内的各个信息管理系统达到无缝连接。
本文提出了一种基于ODI的异构数据集成方案,与其他异构数据集成方案相比,它的特点是可以方便灵活得将新的业务系统集成进来,具有很好的扩展性。而且具有不同于传统工具的独特核心特性异构E-LT、声明设计和知识模块等,符合高性能、灵活性、高生产率、模块化的集成平台的需求。
1异构数据集成
1.1异构数据集成的模式
1、集成模式(联邦数据库)
集成模式对应的就是联邦数据库的模式,即从集成的应用角度,在异构数据的情况下,提供统一的访问视图来满足应用对数据的集成需求。
2、复制模式(数据仓库方法)
复制模式对应的就是数据仓库的建设方法,也就是通常所说的ETL过程,目的是把数据进行复制,然后加以利用的过程。
1.2异构数据集成的难点
1、异构(体系异构、模式异构)
数据集成的异构,一方面是体系上的异构,主要是指各类差异化较大的数据源类型,异构体现在对数据的描述的差异,例如Oracle的Char类型,对应Excel中的Varchar,对应JMSQueue中的FixString。这种映射关系体现了不同体系数据源的异构性。
另一方面,即使对于同一种体系下的数据源,例如同样是关系型数据库,Oracle与DB2也存在模式上的异构。具体体现为Oracle的LongRow类型,对应为DB2UDB中的BLOB类型,对应于DB2/400的Varchar()forbitdata。这种类型的异构就是模式上的异构体现。
2、语义转换(语义识别、语义冲突)
数据集成的过程中,最大的障碍就是找到源和目标的映射关系,这也是数据处理的最为复杂、最难以处理的过程。映射关系就是要找到两者在语义定义上是完全一致的,在此基础上进行关联。
对于数据映射过程,一方面需要找到数据的语义定义,即数据的数据说明,包含数据的名称、类型、长度、范围、取值规则以及范例,另一方面要针对语义进行辨别,找到两者的对应关系和匹配法则,这样才能进行映射关联,并在映射过程中进行等值语义的处理。
另一方面,在语义处理上,还需要特别注意处理语义上的冲突问题。即源和目标在语义上存在的差异,尤其是容易由程序辨识的部分,更需要自动化的处理。常见如下的语义冲突:
(1)数据类型上的语义冲突,例如Varchar类型到int类型的映射。
(2)数据长度的语义冲突,例如源是varchar(40),目标是varchar(20)。
(3)数据范围的语义冲突,例如源是一张字典表,目标是两外一张字典表。
3、性能(交换性能、实施效率)
数据集成很重要的一个方面,就是性能。这里性能指的是集成性能和集成实施的性能(也可以说是实施效率)
一般比较常见的性能,都指的是集成性能,即数据从源到目标的数据集成或者数据集成的性能。这个性能又和集成的需求存在关联关系。一般对于全量数据同步,都要求能够进行定时的集成,那么性能主要体现在批量数据的处理能力上。
对于实施效率,对于数据集成的实施环节,面对可能多面的需求以及新增的集成内容,也是客户关注的重要内容。集成实施过程要能够简单、
文档评论(0)