提高数据仓库中数据质量的研究毕业论文.doc

提高数据仓库中数据质量的研究毕业论文.doc

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
提高数据仓库中数据质量的研究毕业论文 目 录 1. 绪论 1 1.1 研究背景 1 1.2 2 1.3 本文的主要研究内容和内容组织 3 2. 数据仓库以及ETL 4 2.1 数据仓库(Data WareHouse, DW) 4 2.2 ETL(Extract, Transform, loading) 6 2.2.1 ETL简介 6 2.2.2 ETL过程特点 7 2.2.3 数据质量保证 8 2.2.4 元数据:拓展新星应用 9 3. EMC项目中的ETL应用 10 3.1 业务背景 10 3.2 实例概述 12 3.3 总体流程 13 3.4 接口表 14 3.4 企业数据迁移(EDM)模型层 15 3.5 事实表层 16 3.6 数据集市(DM)层 17 3.7 多维分析(OLAP)层 17 3.8 总体处理流程、反馈过程 17 4. EMC中数据调度校验的应用 19 4.1 需求分析 19 4.1.1 需求设计描述 19 4.1.2 功能性需求描述(按功能模块进行说明) 19 4.1.3 非功能性需求描述 20 4.2 系统总体设计 21 4.2.1 系统总体功能设计图 21 4.2.2 系统总体功能设计图说明 21 4.2.3 系统功能设计描述 22 4.3 概要设计 23 4.3.1 概要功能设计图 23 4.3.2 功能性描述(按功能模块) 24 4.4 后台调度流程 26 4.4.1 ETL任务调度概述 26 4.4.2 任务/任务组实例化 27 4.4.3 任务实例调度 28 4.5 后台校验流程 29 4.5.1 功能 29 4.5.2 数据结构 29 4.5.3 流程 29 4.5.4 重要函数 32 5. 效果说明和总结 42 致谢 43 参考文献 44 1. 绪论 1.1 研究背景 。97系统、10000号系统、大客户系统等多种业务支撑系统,然而各个系统相对独立,数据分散不一致。这就产生了数据依赖系统存在、缺少完整统一的客户视图、数据共享缺少统一的标准共享困难、数据对闭环的业务流程支撑程度较弱等问题。基于此现状,电信公司确定整合客户数据并以客户为中心实行统一视图的目标,那么建设本企业的数据仓库就势在必行了,而同时保证数据仓库中数据的质量的有效性就成为了一个重点研究的问题。 科学决策是现代企业的管理的核心与基础1.2 国内外研究现状 表1.1 人工编码与ETL工具比较 对比项 手工编码 ETL工具 灵活性 最灵活 比较灵活 难易程度 要求一定的技术水平 相对容易 管理和维护 较难 容易 性能和效率 取决于编写者水平 较高 开发周期 较长 较短 工作量 较重 中等 价格 相对较低 较高 1.3 本文的主要研究内容和内容组织 主要采用的技术手段。本结构分为五章,第一章为绪论,主要介绍 2. 数据仓库以及ETL 2.1 数据仓库(Data WareHouse, DW) 目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W.H.Inmon在其著作《Building the Data Warehouse》一书中给予如下描述:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。数据仓库的概念可以从两个层次予以理解首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。根据数据仓库概念的含义,数据仓库拥有以下四个特点:1、面向主题:操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。 2、集成的:面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。3、相对稳定的:操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。4、反映历史变化:操作型数据库主要关心当前某一个时间段内

文档评论(0)

你好世界 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档