数据融合的核心存储模型及实现.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据融合的核心存储模型及实现   摘要:数据融合是指将来自众多异构MIS系统的数据整合起来,用统一的方式存储、展现。融合异构系统的数据库是一项艰巨的工作:最简单的融合是将多个数据库简单合并在一起,不改变原系统的表结构,这种融合会给编程带来无法克服的困难。比较好的数据融合能将来自不同库中不同结构的数据表统一起来形成一套新的存储模式,并为新系统提供统一的数据层接口,从而降低编写程序的工作量与复杂性。该文源于为上海市国资委开发的监管信息系统,它需要融合四个不同MIS系统的数据库。基于数据仓库的原理,通过使用元数据来描述不同MIS系统的业务报表,形成了一套统一的数据存储模型与数据层操作接口,为该项目的顺利完成奠定了基础,经过实际运行证明该方法可行并且效果良好。   关键词:数据融合;数据仓库;数据挖掘;关系模型;多维数据;元数据   中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)23-5578-04   管理信息系统都具有信息采集、信息存储、信息展示三个环节[1],这些MIS系统通常使用关系数据库来存储数据。不同的信息系统所处理的数据格式与类型往往差别很大,很难开发出一个通用的信息来适应所有的应用。人们在设计MIS系统的时候,考虑到业务流程的需要以及用户的习惯,往往会参考手工作业的单据,这些单据的格式往往五花八门,依照这些单据形成的数据库表就自然具有了该应用独有的特色,这种特色导致了为一种业务设计的信息系统很难容纳另一种不同业务。比如,一个财务系统的数据库结构就很难兼顾人事管理的业务。   应用系统的集成(EAI)需要解决操作系统平台、应用、数据三个层面的兼容问题[2]。到数据集成这一层面,早期主要是采用编写数据转换的接口以解决在不同应用之间数据互通的问题。今天,用户的要求已经不仅仅停留在简单的数据交换,而是希望能将所有应用的数据有机糅合起来,统一在新的应用中,这就是所谓的数据融合。因此,为不同类的业务报表设计通用的数据存储关系模型,并开发一套统一的数据操作接口对数据融合类的应用是具有实用价值的。   1 问题描述   MIS系统都围绕着处理业务报表这一核心功能来发展。无非是实现对各种业务报表的生成(采集)、存储、统计(运算变换)、查询(操作)、展现这几个功能。   业务报表就是一张张的二维表,有的可能带有附件。比如一张财务报表就是一组固定格式的二维表,由许多行与列组成众多的单元格,在格子中填写数据。将业务报表抽象成“在一组按规则排列的格子中所填写的数据集”,而格子之间的排列规则由格子之间的关系决定,可以抽象成业务报表的格式,简称表格。用英文表述的话,报表即report,代表一组数据集;表格即form,表示数据的格式信息。人们最容易看到的是业务报表,因为它们是具体的业务数据,而报表的格式往往被忽略,格式是个抽象的东西,隐含在报表的呈现中。   关系数据库的基本存储单元是字段,一组相关字段形成一条记录,相同类型的记录保存在一张关系表中[3]。如果用一条记录的某个字段来存储一张业务报表在某格子处的值,则一张业务报表就形成了一条记录,所有同类的业务报表都保存在一张关系表中。用一张关系表保存所有同类业务报表的存储方式是许多MIS系统最常使用的方法,这种方法将业务报表作为记录存储在关系数据库中,而报表的格式信息则隐含在数据库的表结构定义中,这种存储模式简单直接,容易理解也易于编程实现,并且对数据的存取效率也非常之高,但是其弊端也很明显。   数据库表与业务报表类型一一对应的存储模式最大的弊端在于可扩展性与兼容性都很差,由此带来的系统维护代价很高。对于关系数据库,一旦表结构确定了,就决定了数据操作的编程界面固定下来了,后期对表结构的任何修改都会对应用程序带来影响,所有与SQL有关的代码几乎都需要重写。因为没有统一的报表格式,即使程序逻辑都一样,也必须为每个业务报表类型做单独的编程。由此可见,为不同类型的业务报表设计通用的数据存储模型,并基于此模型建立统一的数据操作接口对开发MIS系统是具有广泛的应用价值的,尤其适合于需要融合多个业务系统的场合。   本文基于一个已经交付的实际项目,分析了在传统数据集成中所面临的问题,提出了解决此问题所使用的一种新型数据存储模型,并基于此模型设计数据操作编程接口。基于这种方法所实现的数据层能容纳任何业务类型的报表,即使其随时间而变化。   2 解决问题的思路   MIS系统如果只存储业务报表,而将报表的格式隐含在关系数据库的表结构中,将使得表结构无法轻易变动,造成数据层无法适应业务的变化。解决此问题的基本思路就是将业务报表的格式提取出来,形成一种有形的表示方法,也用数据库存储起来。这种方法的核心思路是基于Meta Data(元数据)的概念,就是在业务报表之上提

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档