数据仓库数据源管理研究和实践.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库数据源管理研究和实践

数据仓库数据源管理研究和实践   摘 要:论述数据仓库系统数据源管理的意义、对象、内容和方法,基于此,开发建设数据源管理系统,并应用到对ERP系统业务数据的接入管理,取得预期的成效。   关键词:数据仓库 数据源 数据源管理   中图分类号:TP392 文献标识码:A 文章编号:1007-3973(2013)012-202-03   1 引言   数据仓库(Data Warehouse)是所有DSS(Decision Support System)处理的基础,是一个面向主题(Subject Oriented)的、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。一般来说,数据仓库应具有以下几个方面的作用:(1)存储企业级的基础数据和共享数据;(2)为各业务应用系统提供共享数据;(3)为业务部门提供综合数据查询分析功能;(4)为企业管理层提供分析决策信息。   数据仓库系统的数据一般是通过数据源从业务源系统中抽取,由此数据源是数据获取的首要环节和关键点,当面对众多业务源系统,面对海量数据的抽取时,就迫切需要一套完整高效的方法和工具对数据源进行管理,为数据仓库系统数据的准确性、完整性和及时性提供支持。   2 数据源管理概述   2.1 数据源定义   数据源是指业务源系统(以下简称源系统)中向数据仓库提供业务数据的技术对象,数据仓库系统通过数据源来抽取源系统中的业务数据。在源系统中,数据源可以是各种技术对象,如数据库表、视图、XML文件、文本文件或程序等。   相对应的,在数据仓库系统中一般也有相应的技术对象对应于源系统中的数据源,用于存储业务源系统的数据。在源系统和数据仓库系统之间存在着各种数据传输技术和工具,用来进行数据抽取和传输,比如各种专业化的数据抽取工具(ETL)、WebService技术、数据库连接技术(DB Connect)等等。   2.2 数据源管理意义   数据源管理是数据仓库数据管理的重要组成部分,更是数据接入管理的主要内容。数据源管理的目标是:(1)确保数据仓库系统能准确、完整和及时地接收到业务数据,防止因数据源变更对数据仓库数据造成的各种不良影响。(2)让业务人员、信息管理人员和技术人员等各级各类人员清楚地了解和知晓数据仓库系统已接入了哪些业务数据,为业务人员与技术人员建立起沟通的桥梁。(3)减少因不了解数据仓库系统数据而造成的数据重复接入、重复建设或利用不充分等现象,促进数据仓库系统数据模型的完善提升和数据共享能力提高。   3 数据源管理的对象、内容和方法   3.1 数据源管理的对象   3.1.1 数据源   数据源涉及到数据的业务类别、数据结构、抽取方式等信息,可分类归纳为业务属性、技术属性、数据项属性和运行属性四类,以反映数据源的各方面内容。   业务属性用于说明数据源所涉及的业务数据情况,比如是哪些种类的业务数据,什么业务逻辑条件、组织条件和时间条件下的业务数据,这是数据源管理的核心价值所在。数据源业务属性主要通过数据源名称和数据源描述来表达,此外还包含数据的业务类别(比如财务类、营销类等)、数据业务类型(比如主数据、交易数据等)等信息。   数据项属性是指数据源中可提供的业务数据项(也称字段)信息,主要有数据项的技术名称、中文名称、说明、数据类型、数据长度、小数位数、关键字标识等。   技术属性是指数据源的物理实现,说明数据源的技术对象和类型,主要包括:数据源对象的技术名称;技术类型,如表、视图等;当前版本;使用状态,如在用、未用、废弃;增量支持,说明数据源是否支持以增量方式提供数据。   运行属性指数据仓库系统基于数据源抽取业务数据的相关具体信息。运行属性往往是根据业务、技术和管理的需要而确定的,并且往往是设置在数据抽取工具上。运行属性通常包括:数据的抽取频率和触发时间;数据的抽取方式,分为全量或增量,全量是指抽取数据源中的全部数据,增量是指抽取数据源中自上次抽取后变化的业务数据;推送方式,分为推、送两种方式,推是指源系统主动发起数据的传输,拉是指数据仓库系统主动发起数据的传输;数据传输技术,是指数据传输的技术方式,包括WebService、RFC、数据库直连(DBLINK)、ETL工具等。   3.1.2 数据源构造对象   一个数据源本身往往是由程序、表或视图等多个技术对象构建而成,这些技术对象是数据源的构造对象。显然构造对象的变化会对数据源产生影响。事实上这些构造对象本身也可能存在依赖关系,并且是多对多的依赖关系。同样,对这些技术对象需要关注其技术名称、技术类型和主要功能作用。   3.2 数据源管理的内容   数据源管理的主要工作应包括配

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档